論文の概要: Safety Training Persists Through Helpfulness Optimization in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.02229v1
- Date: Fri, 13 Feb 2026 03:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.094324
- Title: Safety Training Persists Through Helpfulness Optimization in LLM Agents
- Title(参考訳): LLMエージェントのヘルプフルネス最適化による安全トレーニングパーシスト
- Authors: Benjamin Plaut,
- Abstract要約: 安全ポストトレーニングは、安全が有害な要求を拒否することを指す一段階の「チャット」環境で広く研究されている。
直接選好最適化(DPO)の実行が安全性や有用性だけに与える影響を連続的に比較する。
安全訓練はその後の補助訓練を通じて継続する。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety post-training has been studied extensively in single-step "chat" settings where safety typically refers to refusing harmful requests. We study an "agentic" (i.e., multi-step, tool-use) setting where safety refers to harmful actions directly taken by the LLM. We compare the effects of running direct preference optimization (DPO) on safety or helpfulness alone vs both metrics sequentially. As expected, training on one metric alone results in an extreme point along this frontier. However, unlike prior work, we find that safety training persists through subsequent helpfulness training. We also find that all training configurations end up near a linear Pareto frontier with $R^2 = 0.77$. Even post-training on both metrics simultaneously simply results in another point on the frontier rather than finding a "best of both worlds" strategy, despite the presence of such strategies in our DPO dataset. Overall, our findings underscore the need for better understanding of post-training dynamics.
- Abstract(参考訳): 安全後訓練は単一ステップの「チャット」環境で広く研究されており、安全とは一般的に有害な要求を拒否することを指す。
安全とは, LLM が直接受ける有害な行動を指す, 多段階, ツールユース (agentic, multi-step, tool-use) の設定について検討する。
直接選好最適化(DPO)の実行が安全性や有用性だけに与える影響を連続的に比較する。
予想通り、1つのメートル法だけでのトレーニングは、このフロンティアの極端な点をもたらす。
しかし, 従来の作業とは違って, 安全訓練はその後の補助訓練を通じて継続することがわかった。
また、すべてのトレーニング構成が、$R^2 = 0.77$の線形パレートフロンティアの近くで終わることもわかりました。
両方のメトリクスを同時にトレーニングしても、DPOデータセットにそのような戦略が存在するにも関わらず、"両方の世界のベスト"戦略を見つけるのではなく、フロンティアの別のポイントにしかなりません。
全体として、我々の研究結果は、トレーニング後のダイナミクスをよりよく理解する必要性を浮き彫りにしている。
関連論文リスト
- Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。
我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。
提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文 参考訳(メタデータ) (2025-12-23T22:13:14Z) - Reasoning as an Adaptive Defense for Safety [44.78731851555853]
私たちは、$textitTARS$(安全のための適応推論器の訓練)というレシピを構築します。
我々は、チェーンオブソートトレースと、タスク完了と安全のバランスをとる報奨信号を用いて、安全性について推論するモデルを訓練する。
我々の研究は,lLMをジェイルブレイクや有害な要求に対して,プロンプトごとに推論することで,効果的かつオープンなレシピを提供する。
論文 参考訳(メタデータ) (2025-07-01T17:20:04Z) - Toward Secure Tuning: Mitigating Security Risks from Instruction Fine-Tuning [25.153530916709002]
SWATと呼ばれる新しいセキュアチューニング戦略を導入する。
モジュールレベルのパラメータがセキュリティ機能空間のドリフトにどのように影響するかを分析することで、Mods_Robと呼ばれるモジュールのロバストなサブセットを特定します。
私たちのSWAT戦略は、Mods_Robをウォームアップして、最小限のセキュリティリスクで低レベルの機能をキャプチャし、続いて、最適なタスクパフォーマンスを達成するためにすべてのパラメータをトレーニングすることから始まります。
論文 参考訳(メタデータ) (2024-10-06T15:34:04Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。