Fugu-MT 論文翻訳(概要): LoRA is All You Need for Safety Alignment of Reasoning LLMs

論文の概要: LoRA is All You Need for Safety Alignment of Reasoning LLMs

arxiv url: http://arxiv.org/abs/2507.17075v1
Date: Tue, 22 Jul 2025 23:25:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-24 22:33:14.802558
Title: LoRA is All You Need for Safety Alignment of Reasoning LLMs
Title（参考訳）: LLMの安全アライメントに必要なのはLoRAだけ
Authors: Yihao Xue, Baharan Mirzasoleiman,
Abstract要約: 本稿では,SFT に LoRA を使用すれば,その推論能力を損なうことなく,安全のためにモデルを効果的に整列させることができることを示す。これは、安全ウェイト更新を低ランク空間に制限することは、推論ウェイトとの干渉を最小限にするからである。
参考スコア（独自算出の注目度）: 14.561805865086948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning LLMs have demonstrated remarkable breakthroughs in solving complex problems that were previously out of reach. To ensure LLMs do not assist with harmful requests, safety alignment fine-tuning is necessary in the post-training phase. However, safety alignment fine-tuning has recently been shown to significantly degrade reasoning abilities, a phenomenon known as the "Safety Tax". In this work, we show that using LoRA for SFT on refusal datasets effectively aligns the model for safety without harming its reasoning capabilities. This is because restricting the safety weight updates to a low-rank space minimizes the interference with the reasoning weights. Our extensive experiments across four benchmarks covering math, science, and coding show that this approach produces highly safe LLMs -- with safety levels comparable to full-model fine-tuning -- without compromising their reasoning abilities. Additionally, we observe that LoRA induces weight updates with smaller overlap with the initial weights compared to full-model fine-tuning. We also explore methods that further reduce such overlap -- via regularization or during weight merging -- and observe some improvement on certain tasks. We hope this result motivates designing approaches that yield more consistent improvements in the reasoning-safety trade-off.
Abstract（参考訳）: 推論 LLM は、これまで到達できなかった複雑な問題の解決において、目覚ましいブレークスルーを見せている。 LLMが有害な要求に対処しないようにするためには、トレーニング後の段階で安全アライメントの微調整が必要である。しかし、近年、安全アライメントの微調整は「セーフティ税」として知られる推論能力を著しく低下させることが示されている。本研究では,SFT に LoRA を使用すれば,その推論能力を損なうことなく,安全のためのモデルを効果的に整合させることができることを示す。これは、安全ウェイト更新を低ランク空間に制限することは、推論ウェイトとの干渉を最小限にするからである。数学、科学、コーディングに関する4つのベンチマークにわたる大規模な実験は、このアプローチが推論能力を損なうことなく、安全性の高いLLM(フルモデルファインチューニングに匹敵する安全性レベル)を生成することを示している。さらに,LoRAは,全モデル微調整に比べて初期重みとの重み付けの少ない重み更新を誘導する。また、正規化や重み付けによるオーバーラップをさらに減らし、特定のタスクの改善を観察する手法についても検討する。この結果が、推論と安全性のトレードオフをより一貫した改善をもたらすアプローチを設計する動機になることを願っています。

関連論文リスト

THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。 DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文参考訳（メタデータ） (2026-01-30T16:31:02Z)
Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。 SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文参考訳（メタデータ） (2026-01-15T07:33:13Z)
S3LoRA: Safe Spectral Sharpness-Guided Pruning in Adaptation of Agent Planner [1.6114012813668932]
LoRAのようなパラメータ効率のよい微調整技術を用いて、LLM(Large Language Models)を適用することで、LLMベースのエージェントで強力な機能を実現している。既存の安全に配慮した適応手法では、ベースと命令で調整されたモデルチェックポイントの両方にアクセスする必要がある。本稿では,軽量でデータフリーでモデルに依存しないフレームワークであるS3LoRAを提案する。
論文参考訳（メタデータ） (2025-08-20T21:08:29Z)
Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文参考訳（メタデータ） (2025-06-21T14:59:54Z)
Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文参考訳（メタデータ） (2025-06-20T17:57:12Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文参考訳（メタデータ） (2025-05-21T11:45:29Z)
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-01-03T11:34:28Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文参考訳（メタデータ） (2024-10-07T19:53:35Z)
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文参考訳（メタデータ） (2024-05-27T17:31:56Z)
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文参考訳（メタデータ） (2024-05-27T05:04:05Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。