論文の概要: Fail-Closed Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.16977v1
- Date: Thu, 19 Feb 2026 00:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.534668
- Title: Fail-Closed Alignment for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフェイルクローズドアライメント
- Authors: Zachary Coalson, Beth Sohler, Aiden Gabriel, Sanghyun Hong,
- Abstract要約: 本研究では,大規模言語モデルの安全性向上のための設計原則として,フェールクロースアライメントを提案する。
本稿では、事前学習した拒絶方向を反復的に識別し、非難するプログレッシブアライメント・フレームワークを提案する。
メカニスティック解析により,本手法で訓練したモデルでは,プロンプトベースのジェイルブレイクが同時に抑制できない複数の因果的に独立な拒絶方向を符号化することを確認した。
- 参考スコア(独自算出の注目度): 4.205036273334146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a structural weakness in current large language model (LLM) alignment: modern refusal mechanisms are fail-open. While existing approaches encode refusal behaviors across multiple latent features, suppressing a single dominant feature$-$via prompt-based jailbreaks$-$can cause alignment to collapse, leading to unsafe generation. Motivated by this, we propose fail-closed alignment as a design principle for robust LLM safety: refusal mechanisms should remain effective even under partial failures via redundant, independent causal pathways. We present a concrete instantiation of this principle: a progressive alignment framework that iteratively identifies and ablates previously learned refusal directions, forcing the model to reconstruct safety along new, independent subspaces. Across four jailbreak attacks, we achieve the strongest overall robustness while mitigating over-refusal and preserving generation quality, with small computational overhead. Our mechanistic analyses confirm that models trained with our method encode multiple, causally independent refusal directions that prompt-based jailbreaks cannot suppress simultaneously, providing empirical support for fail-closed alignment as a principled foundation for robust LLM safety.
- Abstract(参考訳): 我々は、現在の大言語モデル(LLM)のアライメントにおける構造的弱点を特定し、現代の拒絶機構はフェールオープンである。
既存のアプローチでは、複数の潜在機能にまたがる拒絶動作をエンコードするが、単一の支配的な機能である$-$viaプロンプトベースのjailbreaks$-$canは、アライメントが崩壊し、安全でない生成につながる。
そこで本研究では,LLMの安全性向上のための設計原則として,フェールクローズドアライメントを提案する。
我々は、この原則の具体的なインスタンス化として、事前学習した拒絶方向を反復的に識別し、宣言するプログレッシブアライメントフレームワークを提示し、新しい独立部分空間に沿って安全性を再構築することを強制する。
4回のJailbreak攻撃で、オーバーリフレクションを軽減し、生成品質を保ちながら、計算オーバーヘッドを小さく抑えながら、最強の総合ロバスト性を実現した。
メカニカル分析により,本手法で訓練したモデルでは,高速脱獄が同時に抑制できない複数かつ因果的に独立な拒絶方向を符号化し,ロバストなLCM安全性の原則として,フェールクロースアライメントを実証的に支援できることを確認した。
関連論文リスト
- Unvalidated Trust: Cross-Stage Vulnerabilities in Large Language Model Architectures [0.0]
本稿では,商業用言語モデルにおける41の繰り返しリスクパターンのメカニズム中心の分類法を提案する。
これらの動作がアーキテクチャ上の障害モードを構成し、文字列レベルのフィルタリングだけでは不十分である、と我々は主張する。
論文 参考訳(メタデータ) (2025-10-30T09:38:45Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal Direction [21.03567306455414]
大規模言語モデル(LLM)に永続的な脅威をもたらす脱獄攻撃
私たちはこれらの問題を克服する堅牢な安全アライメントフレームワークであるDeepRefusalを紹介します。
本手法は,性能劣化を最小限に抑えながら,攻撃成功率を約95%削減する。
論文 参考訳(メタデータ) (2025-09-18T17:54:31Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。