論文の概要: AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
- arxiv url: http://arxiv.org/abs/2508.02079v1
- Date: Mon, 04 Aug 2025 05:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.189848
- Title: AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
- Title(参考訳): AlignGuard-LoRA:Fisher-Guided DecompositionとRiemann-Geodesic Collision Regularizationによる配位保存微細チューニング
- Authors: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha,
- Abstract要約: 低ランク適応(LoRA)は、大規模言語モデルを効率的に微調整するための標準ツールとなっている。
LoRA更新はアライメントドリフトを誘発し、安全性と行動制約を弱める。
ファインタニング時にアライメントを保存するための原則的フレームワークであるAlignGuard-LoRAを提案する。
- 参考スコア(独自算出の注目度): 6.5225344327304535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.
- Abstract(参考訳): 低ランク適応(LoRA)は、大規模言語モデル(LLM)を効率的に微調整するための標準ツールとなっている。
しかし、マイナーなLoRA更新でさえ、アライメントドリフトを誘発し、絡み合ったパラメータ変化によって安全性と振る舞いの制約を弱めることができる。
これを解決するために,ファインタニング時のアライメントを維持するための原則的フレームワークであるAlignGuard-LoRA(AGL)を提案する。
AGLには、監視のための主要なタスク損失、アライメントに敏感なサブスペースの更新を制限するFisher Information Matrixベースの正規化、新しい知識の統合を安定化するためのタスク固有の正規化など、いくつかの重要なコンポーネントが導入されている。
さらに、衝突認識正則化を導入し、座標的干渉をペナル化するリーマン重なりと、不連結な更新幾何を促進する測地的分離を混合する。
DriftCapsは、アライメントのドリフトと安全性の低下を定量化するために設計された安全で安全でないプロンプトを対象とする診断ベンチマークです。
実験的な評価では、AGLは下流タスク性能を低下させることなく、安全クリティカルなベンチマークでアライメントドリフトを最大50%軽減している。
包括的アブレーションは、各成分が潜伏した安全行動の保存に明確に寄与することを確認する。
最後に, 破滅的忘れのスケーリング法則を導出し, 適応力学を保ちながら, AGL が微細化後の損失エスカレーションをフラット化することを明らかにする。
AGLはLoRAの構造的な改良であり、最小限のトレードオフでアライメントを維持できる。
さらなる調査と開発を促進するため、我々は実装をオープンソース化しました。
関連論文リスト
- Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。
本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。
以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。
実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-03T11:34:28Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。