論文の概要: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- arxiv url: http://arxiv.org/abs/2506.11083v1
- Date: Wed, 04 Jun 2025 09:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.561958
- Title: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- Title(参考訳): RedDebate: マルチエージェントなRed Teaming Debatesによるレスポンスの削減
- Authors: Ali Asad, Stephen Obadinma, Radin Shayanfar, Xiaodan Zhu,
- Abstract要約: RedDebateは、自分たちの安全でない振る舞いを積極的に識別し緩和する、新しいマルチエージェントの議論フレームワークである。
代わりにRedDebateは協力的な意見の相違を受け入れ、複数の大規模言語モデルが互いの推論を批判的に検証できるようにする。
我々は、議論だけで安全でない振る舞いを17.7%削減でき、長期記憶モジュールと組み合わせると23.5%以上削減できることを示した。
- 参考スコア(独自算出の注目度): 19.508831123982354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RedDebate, a novel multi-agent debate framework that leverages adversarial argumentation among Large Language Models (LLMs) to proactively identify and mitigate their own unsafe behaviours. Existing AI safety methods often depend heavily on costly human evaluations or isolated single-model assessment, both subject to scalability constraints and oversight risks. RedDebate instead embraces collaborative disagreement, enabling multiple LLMs to critically examine one another's reasoning, and systematically uncovering unsafe blind spots through automated red-teaming, and iteratively improve their responses. We further integrate distinct types of long-term memory that retain learned safety insights from debate interactions. Evaluating on established safety benchmarks such as HarmBench, we demonstrate the proposed method's effectiveness. Debate alone can reduce unsafe behaviours by 17.7%, and when combined with long-term memory modules, achieves reductions exceeding 23.5%. To our knowledge, RedDebate constitutes the first fully automated framework that combines multi-agent debates with red-teaming to progressively enhance AI safety without direct human intervention.(Github Repository: https://github.com/aliasad059/RedDebate)
- Abstract(参考訳): 我々は,Large Language Models (LLMs) 間の敵対的議論を利用して,自分たちの安全でない振る舞いを積極的に識別し軽減する,新しいマルチエージェント討論フレームワークであるRedDebateを提案する。
既存のAI安全性メソッドは、スケーラビリティの制約と監視リスクの両方を考慮し、コストのかかる人的評価や孤立した単一モデルアセスメントに大きく依存することが多い。
代わりにRedDebateは協力的な意見の相違を受け入れ、複数のLDMが互いの推論を批判的に検証し、自動化されたリピートによって安全でない盲点を体系的に発見し、反応を反復的に改善する。
さらに、議論の対話から学んだ安全性の洞察を保持するための、異なるタイプの長期記憶を統合する。
HarmBenchのような確立された安全性ベンチマークを評価し,提案手法の有効性を実証した。
ディベートだけで安全でない振る舞いを17.7%減らすことができ、長期記憶モジュールと組み合わせると23.5%を超える減量を達成する。
私たちの知る限り、RedDebateは、マルチエージェントの議論とレッドチームを組み合わせることで、人間の介入なしにAIの安全性を徐々に向上する、最初の完全に自動化されたフレームワークです。
(Githubリポジトリ:https://github.com/aliasad059/RedDebate)
関連論文リスト
- When to Trust Context: Self-Reflective Debates for Context Reliability [32.806602222335485]
SR-DCR(Self-Reflective Debate for Contextual Reliability)は、トークンレベルの自信と非対称なマルチエージェントの議論を統合する軽量フレームワークである。
ClashEvalベンチマークの実験では、SR-DCRは信頼に値する入力の精度を維持しながら、一貫してロバスト性を高めることが示されている。
論文 参考訳(メタデータ) (2025-06-06T12:09:34Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。