論文の概要: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- arxiv url: http://arxiv.org/abs/2506.11083v1
- Date: Wed, 04 Jun 2025 09:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.561958
- Title: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- Title(参考訳): RedDebate: マルチエージェントなRed Teaming Debatesによるレスポンスの削減
- Authors: Ali Asad, Stephen Obadinma, Radin Shayanfar, Xiaodan Zhu,
- Abstract要約: RedDebateは、自分たちの安全でない振る舞いを積極的に識別し緩和する、新しいマルチエージェントの議論フレームワークである。
代わりにRedDebateは協力的な意見の相違を受け入れ、複数の大規模言語モデルが互いの推論を批判的に検証できるようにする。
我々は、議論だけで安全でない振る舞いを17.7%削減でき、長期記憶モジュールと組み合わせると23.5%以上削減できることを示した。
- 参考スコア(独自算出の注目度): 19.508831123982354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose RedDebate, a novel multi-agent debate framework that leverages adversarial argumentation among Large Language Models (LLMs) to proactively identify and mitigate their own unsafe behaviours. Existing AI safety methods often depend heavily on costly human evaluations or isolated single-model assessment, both subject to scalability constraints and oversight risks. RedDebate instead embraces collaborative disagreement, enabling multiple LLMs to critically examine one another's reasoning, and systematically uncovering unsafe blind spots through automated red-teaming, and iteratively improve their responses. We further integrate distinct types of long-term memory that retain learned safety insights from debate interactions. Evaluating on established safety benchmarks such as HarmBench, we demonstrate the proposed method's effectiveness. Debate alone can reduce unsafe behaviours by 17.7%, and when combined with long-term memory modules, achieves reductions exceeding 23.5%. To our knowledge, RedDebate constitutes the first fully automated framework that combines multi-agent debates with red-teaming to progressively enhance AI safety without direct human intervention.(Github Repository: https://github.com/aliasad059/RedDebate)
- Abstract(参考訳): 我々は,Large Language Models (LLMs) 間の敵対的議論を利用して,自分たちの安全でない振る舞いを積極的に識別し軽減する,新しいマルチエージェント討論フレームワークであるRedDebateを提案する。
既存のAI安全性メソッドは、スケーラビリティの制約と監視リスクの両方を考慮し、コストのかかる人的評価や孤立した単一モデルアセスメントに大きく依存することが多い。
代わりにRedDebateは協力的な意見の相違を受け入れ、複数のLDMが互いの推論を批判的に検証し、自動化されたリピートによって安全でない盲点を体系的に発見し、反応を反復的に改善する。
さらに、議論の対話から学んだ安全性の洞察を保持するための、異なるタイプの長期記憶を統合する。
HarmBenchのような確立された安全性ベンチマークを評価し,提案手法の有効性を実証した。
ディベートだけで安全でない振る舞いを17.7%減らすことができ、長期記憶モジュールと組み合わせると23.5%を超える減量を達成する。
私たちの知る限り、RedDebateは、マルチエージェントの議論とレッドチームを組み合わせることで、人間の介入なしにAIの安全性を徐々に向上する、最初の完全に自動化されたフレームワークです。
(Githubリポジトリ:https://github.com/aliasad059/RedDebate)
関連論文リスト
- Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。