論文の概要: Decoupling Safety into Orthogonal Subspace: Cost-Efficient and Performance-Preserving Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.09004v1
- Date: Fri, 10 Oct 2025 05:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.115671
- Title: Decoupling Safety into Orthogonal Subspace: Cost-Efficient and Performance-Preserving Alignment for Large Language Models
- Title(参考訳): 安全を直交部分空間に分離する:大規模言語モデルのための費用効率・性能保全アライメント
- Authors: Yutao Mou, Xiaoling Zhou, Yuxiao Luo, Shikun Zhang, Wei Ye,
- Abstract要約: 安全データのみをトレーニングしても,LORAに基づくRefusal-trainingにより安全性アライメントの維持が可能であることを示す。
我々は,LoRAがモデル固有の変換空間に対して,安全性を低ランク部分空間に効果的に分離する,理論的および実験的証拠の両方を提供する。
- 参考スコア(独自算出の注目度): 39.71740443729507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is essential for building trustworthy artificial intelligence, yet it remains challenging to enhance model safety without degrading general performance. Current approaches require computationally expensive searches for the optimal proportion of safety-critical and general-purpose data to balance safety and general performance, incurring high costs with limited gains. In this work, we show that LoRA-based Refusal-training enables performance-preserving safety alignment even when trained solely on safety data, demonstrating that LoRA serves as cost-efficient, performance-preserving, and plug-and-play safety patches. Beyond empirical findings, we provide both theoretical and experimental evidence that LoRA effectively decouples safety into a low-rank subspace largely orthogonal to the model's intrinsic transformation space, ensuring that safety enhancements do not interfere with inherent capabilities.
- Abstract(参考訳): 信頼性の高い人工知能を構築するには安全調整が不可欠だが、一般的な性能を損なうことなくモデルの安全性を高めることは依然として困難である。
現在のアプローチでは、安全性と一般的なパフォーマンスのバランスをとるために、安全クリティカルなデータと汎用データの最適な割合を計算的に高価な探索を必要とする。
本研究は,LoRAをベースとしたRefusal-trainingにより,安全データのみをトレーニングしても,安全性アライメントを向上できることを示し,コスト効率,性能保存,プラグアンドプレイの安全パッチとして機能することが実証された。
実験結果の他に、LoRAがモデル固有の変換空間とほぼ直交する低ランク部分空間に効果的に安全性を分離し、安全性の強化が固有の機能に干渉しないようにする理論的および実験的証拠も提示する。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [47.33307521558814]
下流タスクのための微調整された大型言語モデル(LLM)は、しばしば破滅的な忘れを招きます。
プレファインモデルとポストファインモデルとの重み付けを単純に組み合わせれば安全性の低下が軽減され,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-12-27T08:03:22Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - SafeDreamer: Safe Reinforcement Learning with World Models [7.773096110271637]
本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
論文 参考訳(メタデータ) (2023-07-14T06:00:08Z) - Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees [14.107064796593225]
我々は、最適な輸送コストの不確実性セットを用いてロバストネスを組み込んだ安全な強化学習フレームワークを導入する。
安全性の制約のある継続的制御タスクの実験では,本手法はロバストな性能を示しながら,デプロイ時の安全性を大幅に改善する。
論文 参考訳(メタデータ) (2023-01-31T02:39:52Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。