論文の概要: The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
- arxiv url: http://arxiv.org/abs/2510.08240v1
- Date: Thu, 09 Oct 2025 14:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.113182
- Title: The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
- Title(参考訳): The Alignment Waltz: 安全のための共同トレーニングエージェント
- Authors: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan,
- Abstract要約: WaltzRLは、安全アライメントを協調的でポジティブなゲームとして定式化する、新しいマルチエージェント強化学習フレームワークである。
WaltzRLのコアとなるDIR(Dynamic Improvement Reward)は、会話エージェントがフィードバックをいかにうまく組み込むかに基づいて、時間とともに進化する。
我々の実験は5つの多様なデータセットで行われ、WaltzRLは安全でない応答と過度な拒絶の両方を著しく低減することを示した。
- 参考スコア(独自算出の注目度): 80.16102254128518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harnessing the power of LLMs requires a delicate dance between being helpful and harmless. This creates a fundamental tension between two competing challenges: vulnerability to adversarial attacks that elicit unsafe content, and a tendency for overrefusal on benign but sensitive prompts. Current approaches often navigate this dance with safeguard models that completely reject any content that contains unsafe portions. This approach cuts the music entirely-it may exacerbate overrefusals and fails to provide nuanced guidance for queries it refuses. To teach models a more coordinated choreography, we propose WaltzRL, a novel multi-agent reinforcement learning framework that formulates safety alignment as a collaborative, positive-sum game. WaltzRL jointly trains a conversation agent and a feedback agent, where the latter is incentivized to provide useful suggestions that improve the safety and helpfulness of the conversation agent's responses. At the core of WaltzRL is a Dynamic Improvement Reward (DIR) that evolves over time based on how well the conversation agent incorporates the feedback. At inference time, unsafe or overrefusing responses from the conversation agent are improved rather than discarded. The feedback agent is deployed together with the conversation agent and only engages adaptively when needed, preserving helpfulness and low latency on safe queries. Our experiments, conducted across five diverse datasets, demonstrate that WaltzRL significantly reduces both unsafe responses (e.g., from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on OR-Bench) compared to various baselines. By enabling the conversation and feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances LLM safety without degrading general capabilities, thereby advancing the Pareto front between helpfulness and harmlessness.
- Abstract(参考訳): LLMのパワーを損なうには、便利さと無害さの微妙なダンスが必要である。
これは、2つの競合する課題、すなわち、安全でないコンテンツを誘発する敵対的攻撃に対する脆弱性と、良心的だが敏感なプロンプトに対する過度な拒絶の傾向の間に、根本的な緊張を生じさせる。
現在のアプローチでは、安全でない部分を含むコンテンツを完全に拒否するセーフガードモデルを使って、このダンスをナビゲートすることが多い。
このアプローチは音楽を完全にカットする - 過度な拒絶を悪化させ、拒否するクエリの微妙なガイダンスを提供するのに失敗する可能性がある。
より協調的な振付法をモデルに教えるために,協調的,肯定的なゲームとして安全アライメントを定式化する新しいマルチエージェント強化学習フレームワークであるWaltzRLを提案する。
WaltzRLは会話エージェントとフィードバックエージェントを共同でトレーニングし、後者にインセンティブを与え、会話エージェントの応答の安全性と有用性を改善する有用な提案を提供する。
WaltzRLのコアとなるDIR(Dynamic Improvement Reward)は、会話エージェントがフィードバックをいかにうまく組み込むかに基づいて、時間とともに進化する。
推論時に、会話エージェントからの安全でない、あるいは過剰な応答が、破棄されるよりも改善される。
フィードバックエージェントは、会話エージェントと共にデプロイされ、必要に応じて適応的にのみ関与し、安全なクエリに対する利便性と低レイテンシを保持する。
我々の実験は5つの多様なデータセットで行われ、WaltzRLは様々なベースラインと比較して安全性の低い応答(例えばWildJailbreakでは39.0%から4.6%)とオーバーリフレル(OR-Benchでは45.3%から9.9%)の両方を著しく減少させることを示した。
会話とフィードバックエージェントが協調してフィードバックを適応的に適用できるようにすることで、WaltzRLは汎用能力を低下させることなくLCMの安全性を高め、有用性と無害性の間にパレートフロントを前進させる。
関連論文リスト
- Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。