論文の概要: CSULoRA: Closest Safe Update Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2605.30640v1
- Date: Thu, 28 May 2026 22:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.278139
- Title: CSULoRA: Closest Safe Update Low-Rank Adaptation
- Title(参考訳): CSULoRA: 最低限の安全アップデート低ランク適応
- Authors: Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, Salima Lamsiyah,
- Abstract要約: CSULoRAは、最も安全な更新推定によってトレーニング済みのLoRAアダプタを修正するポストホック方式である。
完全に整列した成分を保ちながら、相対エネルギーに応じて潜在的に安全でない方向を滑らかに減衰する、閉形式のペナル化最小変化問題を解決する。
対向的な微調整実験では、CSULoRAは標準的なLoRA微調整から得られるユーティリティゲインの大部分を保存しながら、攻撃成功率を大幅に低減する。
- 参考スコア(独自算出の注目度): 13.923849468280425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank adaptation has become a standard method for parameter-efficient fine-tuning of large language models, but even small amounts of unsafe or adversarial fine-tuning data can substantially weaken the safety behavior of aligned models. Existing safety-preserving LoRA methods often rely on hard interventions such as projection, pruning, thresholding, or additional training objectives. While these methods can suppress unsafe update directions, they may also remove task-relevant information or require extra tuning. We introduce CSULoRA, a post-hoc method for correcting trained LoRA adapters through closest safe update estimation. CSULoRA estimates a safety-aligned subspace from the weight displacement between a safety-aligned model and its corresponding base checkpoint. It then decomposes each LoRA update into fully aligned, partially aligned, and off-subspace components. Instead of discarding components outside the estimated safety subspace, CSULoRA solves a closed-form penalized minimum-change problem that preserves the fully aligned component while smoothly attenuating potentially unsafe directions according to their relative energy. In adversarial fine-tuning experiments, CSULoRA substantially reduces attack success rate while preserving most of the utility gains obtained from standard LoRA fine-tuning.
- Abstract(参考訳): 低ランク適応は、大規模言語モデルのパラメータ効率のよい微調整の標準手法となっているが、少数の非安全データや逆調整データでさえ、整列モデルの安全性を著しく低下させる可能性がある。
既存の安全保存のLoRA法は、投射、プルーニング、しきい値設定、追加の訓練目的など、ハードな介入に頼っていることが多い。
これらの手法は、安全でない更新方向を抑えることができるが、タスク関連情報を削除したり、追加のチューニングを必要とすることもある。
我々は、最も安全な更新推定によりトレーニング済みのLoRAアダプタを修正するポストホック法であるCSULoRAを紹介する。
CSULoRAは、安全整合モデルとその対応するベースチェックポイント間の重み変位から安全整合部分空間を推定する。
その後、各LoRAアップデートを完全な整列、部分的に整列、サブスペース外のコンポーネントに分解する。
CSULoRAは、推定された安全部分空間の外でコンポーネントを破棄する代わりに、完全に整合したコンポーネントを維持しながら、相対エネルギーに応じて潜在的に安全でない方向を滑らかに減衰する、閉じた形式でペナル化された最小変化問題を解く。
対向的な微調整実験では、CSULoRAは標準的なLoRA微調整から得られるユーティリティゲインの大部分を保存しながら、攻撃成功率を大幅に低減する。
関連論文リスト
- Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection [52.551864761088574]
大規模言語モデル(LLM)は、しばしばアライメント税を課す。
この税は、主に連続的な順序で学習スタイルを忘れることから生じると我々は主張する。
我々は, 塑性と安定性のバランスをとるために, OGPSA (Orthogonal Gradient Projection for Safety Alignment) を提案する。
論文 参考訳(メタデータ) (2026-02-08T09:53:46Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - LoRA is All You Need for Safety Alignment of Reasoning LLMs [30.616817385956754]
本稿では,SFT に LoRA を使用すれば,その推論能力を損なうことなく,安全のためにモデルを効果的に整列させることができることを示す。
これは、安全ウェイト更新を低ランク空間に制限することは、推論ウェイトとの干渉を最小限にするからである。
実験により, 本手法は, 全モデルファインチューニングに匹敵する安全性を保ちながら, 推論能力を損なうことなく, 安全性の高いLCMを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-07-22T23:25:16Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。
本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。
以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。
実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-03T11:34:28Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。