論文の概要: The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety
- arxiv url: http://arxiv.org/abs/2602.15799v1
- Date: Tue, 17 Feb 2026 18:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.161667
- Title: The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety
- Title(参考訳): 配向崩壊の幾何学:微調整が安全を損なうとき
- Authors: Max Springer, Chung Peng Lee, Blossom Metevier, Jane Castleman, Bohdan Turbal, Hayoung Jung, Zeyu Shen, Aleksandra Korolova,
- Abstract要約: 良質なタスクに関する微調整言語モデルは、予測不能に安全ガードレールを格下げする。
我々は、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを証明する。
我々はこの機構をアライメント不安定条件によって定式化する。
- 参考スコア(独自算出の注目度): 40.556122962771276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning aligned language models on benign tasks unpredictably degrades safety guardrails, even when training data contains no harmful content and developers have no adversarial intent. We show that the prevailing explanation, that fine-tuning updates should be orthogonal to safety-critical directions in high-dimensional parameter space, offers false reassurance: we show this orthogonality is structurally unstable and collapses under the dynamics of gradient descent. We then resolve this through a novel geometric analysis, proving that alignment concentrates in low-dimensional subspaces with sharp curvature, creating a brittle structure that first-order methods cannot detect or defend. While initial fine-tuning updates may indeed avoid these subspaces, the curvature of the fine-tuning loss generates second-order acceleration that systematically steers trajectories into alignment-sensitive regions. We formalize this mechanism through the Alignment Instability Condition, three geometric properties that, when jointly satisfied, lead to safety degradation. Our main result establishes a quartic scaling law: alignment loss grows with the fourth power of training time, governed by the sharpness of alignment geometry and the strength of curvature coupling between the fine-tuning task and safety-critical parameters. These results expose a structural blind spot in the current safety paradigm. The dominant approaches to safe fine-tuning address only the initial snapshot of a fundamentally dynamic problem. Alignment fragility is not a bug to be patched; it is an intrinsic geometric property of gradient descent on curved manifolds. Our results motivate the development of curvature-aware methods, and we hope will further enable a shift in alignment safety analysis from reactive red-teaming to predictive diagnostics for open-weight model deployment.
- Abstract(参考訳): 良質なタスク上の微調整された言語モデルは、たとえトレーニングデータが有害なコンテンツを含んでおらず、開発者は敵意を持っていないとしても、予測不能に安全ガードレールを低下させる。
高次元パラメータ空間において、微調整の更新は安全クリティカルな方向と直交するべきであるという一般的な説明は、偽の復活をもたらすことを示し、この直交性は構造的に不安定であり、勾配降下の力学の下で崩壊することを示す。
そして、これを新しい幾何学的解析によって解決し、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを示し、一階法では検出できない脆い構造を作り出す。
初期の微調整更新ではこれらの部分空間は避けられるが、微調整損失の曲率によって2階加速が発生し、系統的に軌道をアライメントに敏感な領域に導く。
この機構をアライメント不安定条件(アライメント不安定条件)で定式化し, 共同で満たすと安全性が低下する3つの幾何学的性質について述べる。
配向損失は、アライメント幾何学の鋭さと微調整タスクと安全臨界パラメータ間の曲率結合の強さに支配され、トレーニング時間の4番目のパワーで増大する。
これらの結果は、現在の安全パラダイムにおける構造的な盲点を明らかにする。
安全な微調整アドレスに対する支配的なアプローチは、根本的な動的問題の初期スナップショットのみである。
配向不安定性はパッチを当てるべきバグではなく、曲線多様体上の勾配降下の本質的な幾何学的性質である。
本研究は, 曲率認識手法の開発を動機とし, 反応性のレッドチームからオープンウェイトモデル展開の予測診断へのアライメント安全性解析のシフトをさらに実現したいと考えている。
関連論文リスト
- Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection [52.551864761088574]
大規模言語モデル(LLM)は、しばしばアライメント税を課す。
この税は、主に連続的な順序で学習スタイルを忘れることから生じると我々は主張する。
我々は, 塑性と安定性のバランスをとるために, OGPSA (Orthogonal Gradient Projection for Safety Alignment) を提案する。
論文 参考訳(メタデータ) (2026-02-08T09:53:46Z) - Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - Geometric and Dynamic Scaling in Deep Transformers [13.697614668609205]
我々は、ディープトランスフォーマーの崩壊は基本的に幾何学的な問題であると主張する。
2つの原則によりこれらの障害に対処する統一的な幾何学的枠組みを提案する。
超深層ネットワークにおけるランク崩壊を回避するためには, 動的消去を許容しながら幾何的妥当性を強制することが重要であると予測した。
論文 参考訳(メタデータ) (2026-01-03T00:41:46Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Geometry-Aware Backdoor Attacks: Leveraging Curvature in Hyperbolic Embeddings [3.8806403512213787]
非ユークリッド基底モデルは双曲幾何学のような曲線空間に表現を配置する。
入力空間の小さな変化は標準の入力空間検出器には微妙に見えるが、モデルの表現空間において不均等に大きな変化をもたらす。
本稿では,幾何適応型トリガを提案し,タスクやアーキテクチャにわたって評価する。
論文 参考訳(メタデータ) (2025-10-07T19:24:43Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。