論文の概要: Reasoning as an Adaptive Defense for Safety
- arxiv url: http://arxiv.org/abs/2507.00971v1
- Date: Tue, 01 Jul 2025 17:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.751661
- Title: Reasoning as an Adaptive Defense for Safety
- Title(参考訳): 安全のためのアダプティブ・ディフェンスとしての推論
- Authors: Taeyoun Kim, Fahim Tajwar, Aditi Raghunathan, Aviral Kumar,
- Abstract要約: 私たちは、$textitTARS$(安全のための適応推論器の訓練)というレシピを構築します。
我々は、チェーンオブソートトレースと、タスク完了と安全のバランスをとる報奨信号を用いて、安全性について推論するモデルを訓練する。
我々の研究は,lLMをジェイルブレイクや有害な要求に対して,プロンプトごとに推論することで,効果的かつオープンなレシピを提供する。
- 参考スコア(独自算出の注目度): 31.00328416755368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning methods that adaptively allocate test-time compute have advanced LLM performance on easy to verify domains such as math and code. In this work, we study how to utilize this approach to train models that exhibit a degree of robustness to safety vulnerabilities, and show that doing so can provide benefits. We build a recipe called $\textit{TARS}$ (Training Adaptive Reasoners for Safety), a reinforcement learning (RL) approach that trains models to reason about safety using chain-of-thought traces and a reward signal that balances safety with task completion. To build TARS, we identify three critical design choices: (1) a "lightweight" warmstart SFT stage, (2) a mix of harmful, harmless, and ambiguous prompts to prevent shortcut behaviors such as too many refusals, and (3) a reward function to prevent degeneration of reasoning capabilities during training. Models trained with TARS exhibit adaptive behaviors by spending more compute on ambiguous queries, leading to better safety-refusal trade-offs. They also internally learn to better distinguish between safe and unsafe prompts and attain greater robustness to both white-box (e.g., GCG) and black-box attacks (e.g., PAIR). Overall, our work provides an effective, open recipe for training LLMs against jailbreaks and harmful requests by reasoning per prompt.
- Abstract(参考訳): テスト時間計算を適応的に割り当てる推論手法は、数学やコードなどの領域の検証が容易なLLM性能を向上させた。
本研究では,安全性上の脆弱性に対する堅牢性を示すモデルをトレーニングするために,このアプローチを活用する方法を検討する。
我々は、$\textit{TARS}$ (Training Adaptive Reasoners for Safety)と呼ばれるレシピを構築し、強化学習(RL)アプローチにより、チェーンオブソートトレースを使用してモデルの安全性を推論し、タスク完了と安全のバランスをとる報奨信号を作成する。
TARSを構築するためには,(1)「軽量」ウォームスタートSFTステージ,(2)有害で無害であいまいなプロンプトの混在による,過剰な拒絶などのショートカット行動の防止,(3)学習中の推論能力の劣化防止のための報酬機能,の3つの重要な設計選択を選択する。
TARSでトレーニングされたモデルは、あいまいなクエリにより多くの計算を費やすことで適応的な振る舞いを示し、安全性と拒絶のトレードオフを改善する。
また、安全でないプロンプトと安全でないプロンプトを区別し、ホワイトボックス(例えばGCG)とブラックボックスアタック(例えばPAIR)の両方に対してより堅牢性を達成するために内部的に学習する。
全体として、我々の研究は、jailbreakに対するLDMのトレーニングと、プロンプトごとの推論による有害な要求に対して、効果的でオープンなレシピを提供する。
関連論文リスト
- Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。