論文の概要: Mitigating Adaptive Attacks against Reasoning Models with Activation Consistency Training
- arxiv url: http://arxiv.org/abs/2605.28467v1
- Date: Wed, 27 May 2026 13:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.077112
- Title: Mitigating Adaptive Attacks against Reasoning Models with Activation Consistency Training
- Title(参考訳): アクティベーション一貫性トレーニングによる推論モデルに対する適応的攻撃の軽減
- Authors: Avidan Shah, Jannik Brinkmann, Rico Angell,
- Abstract要約: 我々は、クリーンなプロンプトと敵の書き直しに同一の振る舞いを強制する微調整目的のファミリーである一貫性トレーニングについて研究する。
我々はこれらの手法を即時噴射防御として定式化し、ACTが他の訓練ベースの防御と競合することを発見した。
また,ACTの脱獄に対する防御は,補助ターン境界における活性化空間の概ね線形シフトとして符号化されていることを示す。
- 参考スコア(独自算出の注目度): 7.873125096854494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs gain stronger reasoning capabilities, their extended chain-of-thought introduces new degrees of complexity for defending against adversarial jailbreaks and prompt injection. We study consistency training, a family of fine-tuning objectives that enforce identical behavior on clean prompts and adversarial rewrites, and evaluate its two main variants, output-level (BCT) and activation-level (ACT), across five reasoning models. We formulate both methods as a prompt injection defense and find ACT to be competitive with other training-based defenses while requiring only self-supervised pairs of clean and wrapped prompts. Our experiments also generalize both techniques within the jailbreak setting, demonstrating that ACT remains more robust to adaptive attacks. We also provide mechanistic evidence that ACT's defense against jailbreaks is encoded as a roughly linear shift in activation space at the assistant-turn boundary. After ACT training, we can recover a single steering direction that controls refusal on reasoning models with minimal effect on benign inputs. We find that ACT remains robust even when the model's chain-of-thought is replaced with a compliant trace from the undefended base model, pivoting to refuse prefilled jailbreaks. Together, these results suggest that supervising internal representations is a surprisingly effective and interpretable approach to various forms of safety training in reasoning models.
- Abstract(参考訳): LLMがより強力な推論能力を得るにつれて、その拡張されたチェーン・オブ・シントは、敵のジェイルブレイクに対する防御と迅速な注射のために、新しいレベルの複雑さを導入します。
クリーンなプロンプトと逆向きの書き直しに同一の振る舞いを強制する微調整対象のファミリーである整合性トレーニングについて検討し、その2つの主要な変種である出力レベル(BCT)とアクティベーションレベル(ACT)を5つの推論モデルで評価した。
我々はこれらの手法を即時投射防御として定式化し、ACTは他の訓練ベースの防御と競合するが、自己監督された清潔なプロンプトとラップされたプロンプトのみを必要とする。
我々の実験はまた、Jailbreak設定内の両方のテクニックを一般化し、ACTが適応攻撃に対してより堅牢であることを示す。
また,ACTの脱獄に対する防御は,補助ターン境界における活性化空間の概ね線形シフトとして符号化されていることを示す。
ACT訓練後、良性入力に対する最小限の影響の推論モデルに対する拒絶を制御する単一の操舵方向を復元できる。
ACTは、モデルのチェーン・オブ・シントが、未定義のベースモデルからの準拠したトレースに置き換えられた場合でも、堅牢なままであり、プリフィルド・ジェイルブレイクを拒否するためにピボットしていることが分かりました。
これらの結果は、内部表現を監督することは、推論モデルにおける様々な形態の安全訓練に対する驚くほど効果的かつ解釈可能なアプローチであることを示唆している。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Securing Large Language Models (LLMs) from Prompt Injection Attacks [0.0]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その柔軟性は、インジェクション攻撃を誘発する。
タスク固有の微調整アプローチであるJATMOを提案し、非命令型ベースモデルを訓練して1つの機能を実行する。
JATMO の HOUYI に対するロバスト性の評価を行った。
論文 参考訳(メタデータ) (2025-12-01T06:34:20Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。