論文の概要: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- arxiv url: http://arxiv.org/abs/2506.11083v2
- Date: Thu, 09 Oct 2025 19:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.797522
- Title: RedDebate: Safer Responses through Multi-Agent Red Teaming Debates
- Title(参考訳): RedDebate: マルチエージェントなRed Teaming Debatesによるレスポンスの削減
- Authors: Ali Asad, Stephen Obadinma, Radin Shayanfar, Xiaodan Zhu,
- Abstract要約: 安全でない振る舞いを識別し緩和する、新しいマルチエージェントの議論フレームワークであるRedDebateを紹介します。
RedDebateでは、さまざまな議論シナリオにわたる複数の大規模言語モデル(LLM)間の協調的な議論を採用している。
さまざまなモデルの安全ベンチマークに関する実証的な評価は、RedDebateが安全でない出力を大幅に削減していることを示している。
- 参考スコア(独自算出の注目度): 10.243214692251412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RedDebate, a novel multi-agent debate framework that provides the foundation for Large Language Models (LLMs) to identify and mitigate their unsafe behaviours. Existing AI safety approaches often rely on costly human evaluation or isolated single-model assessment, both constrained by scalability and prone to oversight failures. RedDebate employs collaborative argumentation among multiple LLMs across diverse debate scenarios, enabling them to critically evaluate one another's reasoning and systematically uncover unsafe failure modes through fully automated red-teaming. We further integrate distinct long-term memory modules that preserve safety-relevant insights from debate interactions and leverage them during subsequent inference, facilitating continuous refinement of model behaviour. Empirical evaluation on safety benchmarks across a diverse set of models demonstrates that RedDebate substantially reduces unsafe outputs. While debate alone allows LLMs to refine their behaviour, the addition of memory yields further significant reductions. To the best of our knowledge, RedDebate is the first fully automated framework to unify multi-agent debate and red-teaming to progressively enhance LLM safety without human intervention.
- Abstract(参考訳): 我々はRedDebateを紹介します。これは、安全でない振る舞いを識別し緩和するために、LLM(Large Language Models)の基礎を提供する、新しいマルチエージェントの議論フレームワークです。
既存のAI安全性アプローチは、スケーラビリティに制約され、障害を監視しがちな、コストの高い人的評価や孤立した単一モデルアセスメントに依存していることが多い。
RedDebateでは、さまざまな議論シナリオにわたる複数のLLM間での協調的な議論を採用しており、相互の推論を批判的に評価し、完全に自動化されたレッドチームを通じて、安全でない障害モードを体系的に発見することができる。
さらに、議論の相互作用から安全関連洞察を保存し、その後の推論でそれらを活用し、モデル行動の継続的な改善を促進する、異なる長期記憶モジュールを統合する。
さまざまなモデルの安全ベンチマークに関する実証的な評価は、RedDebateが安全でない出力を大幅に削減していることを示している。
議論だけではLSMは自身の振る舞いを洗練できるが、メモリの追加はさらなる大幅な削減をもたらす。
私たちの知る限りでは、RedDebateは、人間の介入なしにLSMの安全性を徐々に向上させるために、マルチエージェントの議論とレッドチームを統合する、最初の完全に自動化されたフレームワークです。
関連論文リスト
- Prepare Reasoning Language Models for Multi-Agent Debate with Self-Debate Reinforcement Learning [49.99694105650486]
自己決定強化学習(Self-Debate Reinforcement Learning, SDRL)は、強力な問題解決能力を持つ単一の大規模言語モデルを備えたトレーニングフレームワークである。
我々は,SDRLが単一モデル推論を同時に強化しつつ,総合的マルチエージェント議論(MAD)性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-01-29T20:21:44Z) - The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs [3.7304174114240545]
シングルターン安全性評価が達成できないマルチターン会話詐欺の新たなリスクについて検討した。
英語と中国語の8つの最先端モデルを評価する。
その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
論文 参考訳(メタデータ) (2026-01-06T16:06:04Z) - Single LLM Debate, MoLaCE: Mixture of Latent Concept Experts Against Confirmation Bias [24.182306712604966]
大規模言語モデル(LLM)は入力確認バイアスに対して非常に脆弱である。
MoLaCEは軽量な推論時間フレームワークで、アクティベーション強度の異なる専門家を混在させることで、確認バイアスに対処する。
検証バイアスを一貫して低減し、堅牢性を向上し、マルチエージェントの議論を上回ることを実証的に示す。
論文 参考訳(メタデータ) (2025-12-29T14:52:34Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - When to Trust Context: Self-Reflective Debates for Context Reliability [32.806602222335485]
SR-DCR(Self-Reflective Debate for Contextual Reliability)は、トークンレベルの自信と非対称なマルチエージェントの議論を統合する軽量フレームワークである。
ClashEvalベンチマークの実験では、SR-DCRは信頼に値する入力の精度を維持しながら、一貫してロバスト性を高めることが示されている。
論文 参考訳(メタデータ) (2025-06-06T12:09:34Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。
レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。
敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文 参考訳(メタデータ) (2025-05-22T08:22:57Z) - Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。