論文の概要: ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning
- arxiv url: http://arxiv.org/abs/2507.11500v1
- Date: Mon, 14 Jul 2025 09:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.202727
- Title: ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning
- Title(参考訳): ARMOR:Meticulous Reasoningによるセキュアで安全な大規模言語モデルの調整
- Authors: Zhengyue Zhao, Yingzi Ma, Somesh Jha, Marco Pavone, Chaowei Xiao,
- Abstract要約: 大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
- 参考スコア(独自算出の注目度): 49.47193675702453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable generative capabilities. However, their susceptibility to misuse has raised significant safety concerns. While post-training safety alignment methods have been widely adopted, LLMs remain vulnerable to malicious instructions that can bypass safety constraints. Recent efforts have introduced inference-time safety reasoning (system-2 alignment), where LLMs conduct a reasoning process to perform safety verification before final response. We show, however, that these checks are driven by ad-hoc reasoning that diverges from the structured human process, where they first discern a user's true intent, then evaluate the associated risk based on the true intent. Consequently, these defenses remain vulnerable to sophisticated jailbreak prompts that cloak harmful goals in seemingly benign language. To build secure and safe LLMs, we propose a reasoning-based safety alignment framework, ARMOR, that replaces the ad-hoc chains of thought reasoning process with human-aligned, structured one. At inference, ARMOR (1) detects likely jailbreak strategies, (2) extracts the user's core intent while discarding deceptive instructions, and (3) applies a policy-grounded safety analysis to the purified request. ARMOR is evaluated on adaptive jailbreak attacks and multiple safety benchmarks, and a test-time scaling is conducted to further improve its performance. Results demonstrate that ARMOR significantly enhances the robustness against state-of-the-art adaptive jailbreak attacks and outperforms recent reasoning-based aligned models across various safety benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顕著な生成能力を示している。
しかし、その誤用に対する感受性は、重大な安全上の懸念を引き起こしている。
トレーニング後の安全アライメント手法は広く採用されているが、LSMは安全制約を回避できる悪意のある命令に弱いままである。
近年、LLMが最終応答前に安全性検証を行うための推論時間安全推論(システム-2アライメント)を導入している。
しかしながら、これらのチェックは、構造化された人間のプロセスから分岐し、まずユーザの真の意図を識別し、その真の意図に基づいて関連するリスクを評価するというアドホックな推論によって駆動されることを示す。
その結果、これらの防御は高度なジェイルブレイクのプロンプトに弱いままであり、一見良心的な言語における有害な目標を隠蔽する。
安全かつ安全なLCMを構築するために,人間の思考推論プロセスのアドホック連鎖を人間に適合した構造に置き換える推論ベースの安全アライメントフレームワークARMORを提案する。
推測では,ARMOR(1) は脱獄の可能性を検知し,(2) 偽りの指示を破棄しながらユーザーの中核的意図を抽出し,(3) 浄化された要求に対してポリシーに基づく安全分析を適用する。
ARMORは、適応的ジェイルブレイク攻撃と複数の安全ベンチマークに基づいて評価され、そのパフォーマンスをさらに向上するためにテスト時間スケーリングが行われる。
その結果、ARMORは、最先端の適応的ジェイルブレイク攻撃に対する堅牢性を著しく向上し、様々な安全ベンチマークにおける最近の推論に基づくアライメントモデルよりも優れていることが示された。
関連論文リスト
- SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。