論文の概要: Alleviating the Fear of Losing Alignment in LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2504.09757v1
- Date: Sun, 13 Apr 2025 23:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:48:21.853887
- Title: Alleviating the Fear of Losing Alignment in LLM Fine-tuning
- Title(参考訳): LLMファインチューニングにおける損失アライメントの恐れを軽減する
- Authors: Kang Yang, Guanhong Tao, Xun Chen, Jun Xu,
- Abstract要約: 大規模言語モデル(LLM)は倫理的でない、あるいは有害な質問に答え、アプリケーションに対する懸念を提起する。
本稿では、微調整中に失われたアライメントの回復に焦点を当てる。
本手法は, タスク性能を犠牲にすることなく, 有害な質問に対する回答の割合を33.25%から1.74%に削減できる。
- 参考スコア(独自算出の注目度): 26.219350136041328
- License:
- Abstract: Large language models (LLMs) have demonstrated revolutionary capabilities in understanding complex contexts and performing a wide range of tasks. However, LLMs can also answer questions that are unethical or harmful, raising concerns about their applications. To regulate LLMs' responses to such questions, a training strategy called \textit{alignment} can help. Yet, alignment can be unexpectedly compromised when fine-tuning an LLM for downstream tasks. This paper focuses on recovering the alignment lost during fine-tuning. We observe that there are two distinct directions inherent in an aligned LLM: the \textit{aligned direction} and the \textit{harmful direction}. An LLM is inclined to answer questions in the aligned direction while refusing queries in the harmful direction. Therefore, we propose to recover the harmful direction of the fine-tuned model that has been compromised. Specifically, we restore a small subset of the fine-tuned model's weight parameters from the original aligned model using gradient descent. We also introduce a rollback mechanism to avoid aggressive recovery and maintain downstream task performance. Our evaluation on 125 fine-tuned LLMs demonstrates that our method can reduce their harmful rate (percentage of answering harmful questions) from 33.25\% to 1.74\%, without sacrificing task performance much. In contrast, the existing methods either only reduce the harmful rate to a limited extent or significantly impact the normal functionality. Our code is available at https://github.com/kangyangWHU/LLMAlignment
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なコンテキストを理解し、幅広いタスクを実行する上で、革命的な能力を示している。
しかし、LSMは非倫理的または有害な質問に答えることができ、アプリケーションに対する懸念を提起する。
このような質問に対する LLM の反応を規制するためには,‘textit{alignment} というトレーニング戦略が有効だ。
しかし、下流タスクのためにLLMを微調整する場合、アライメントは予想外に損なわれる可能性がある。
本稿では、微調整中に失われたアライメントの回復に焦点を当てる。
我々は、整列 LLM に固有の2つの異なる方向が存在することを観察する: \textit{aligned direction} と \textit{harmful direction} である。
LLMは、有害な方向のクエリを拒否しながら、整列方向の質問に答える傾向にある。
そこで本研究では,侵害された微調整モデルの有害な方向を復元することを提案する。
具体的には、勾配勾配勾配モデルから微調整モデルの重みパラメータの小さな部分集合を復元する。
また、アグレッシブリカバリを回避するロールバック機構を導入し、下流タスクのパフォーマンスを維持する。
125個の微調整LCMを用いて評価したところ,タスク性能を犠牲にすることなく,有害な質問に対する回答の割合を33.25\%から1.74\%に削減できることがわかった。
対照的に、既存の手法は有害度を限られた範囲に減らしたり、通常の機能に大きく影響するだけである。
私たちのコードはhttps://github.com/kangyangWHU/LLMAlignmentで利用可能です。
関連論文リスト
- Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:55:50Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。
Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。
PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文 参考訳(メタデータ) (2024-05-13T17:08:42Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。