論文の概要: The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training
- arxiv url: http://arxiv.org/abs/2604.07754v1
- Date: Thu, 09 Apr 2026 03:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.672153
- Title: The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training
- Title(参考訳): ミスアライメントの技法:ポストトレーニングにおける微調整法とリアルLLMの効果的相違
- Authors: Rui Zhang, Hongwei Li, Yun Shen, Xinyue Shen, Wenbo Jiang, Guowen Xu, Yang Liu, Michael Backes, Yang Zhang,
- Abstract要約: ミスアライメントされた大きな言語モデル(LLM)は、害を増大させるためにオープンプラットフォームで公開される可能性がある。
本研究では, 微調整法の有効性について検討し, その効果について検討した。
- 参考スコア(独自算出の注目度): 47.31559037764069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of large language models (LLMs) raises significant ethical and safety concerns. While LLM alignment techniques are adopted to improve model safety and trustworthiness, adversaries can exploit these techniques to undermine safety for malicious purposes, resulting in \emph{misalignment}. Misaligned LLMs may be published on open platforms to magnify harm. To address this, additional safety alignment, referred to as \emph{realignment}, is necessary before deploying untrusted third-party LLMs. This study explores the efficacy of fine-tuning methods in terms of misalignment, realignment, and the effects of their interplay. By evaluating four Supervised Fine-Tuning (SFT) and two Preference Fine-Tuning (PFT) methods across four popular safety-aligned LLMs, we reveal a mechanism asymmetry between attack and defense. While Odds Ratio Preference Optimization (ORPO) is most effective for misalignment, Direct Preference Optimization (DPO) excels in realignment, albeit at the expense of model utility. Additionally, we identify model-specific resistance, residual effects of multi-round adversarial dynamics, and other noteworthy findings. These findings highlight the need for robust safeguards and customized safety alignment strategies to mitigate potential risks in the deployment of LLMs. Our code is available at https://github.com/zhangrui4041/The-Art-of-Mis-alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の展開は、倫理的および安全性上の重大な懸念を提起する。
LLMアライメント技術はモデルの安全性と信頼性を改善するために採用されているが、敵はこれらの技術を利用して悪意のある目的の安全性を損なうことができる。
ミスアライズされたLSMは、害を拡大するためにオープンなプラットフォームで公開される。
これに対処するためには、信頼できないサードパーティのLCMをデプロイする前に、追加の安全性アライメント、すなわち 'emph{realignment} が必要である。
本研究では, 微調整法の有効性について検討し, その効果について検討した。
攻撃と防御の非対称性を解明するために,4つのスーパービジョンファインチューニング (SFT) と2つの優先度ファインチューニング (PFT) 手法の評価を行った。
Odds Ratio Preference Optimization (ORPO) はミスアライメントに最も効果的であるが、DPO(Direct Preference Optimization) はモデルユーティリティを犠牲にすることなく、アライメントに優れる。
さらに, モデル特異的抵抗, 多ラウンド対向力学の残留効果, その他の注目すべき知見を同定した。
これらの知見は、LSMの展開における潜在的なリスクを軽減するために、堅牢な安全ガードと、カスタマイズされた安全アライメント戦略の必要性を強調している。
私たちのコードはhttps://github.com/zhangrui4041/The-Art-of-Mis-alignmentで利用可能です。
関連論文リスト
- Towards Identification and Intervention of Safety-Critical Parameters in Large Language Models [39.89636417379952]
大言語モデル(LLM)の安全性は重要であるが、安全性メカニズムに関する明確な理解の欠如は、安全介入のための正確で信頼性の高い方法論の開発を妨げる。
我々は,LLMの安全性に異なるパラメータがどう影響するかを定量化するための,期待された安全影響(ESI)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-09T14:31:42Z) - LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion [16.434293020863592]
大きな言語モデル(LLM)の安全性メカニズムは、有害なコンテンツのないデータセットの微調整でさえも、その安全性能力を損なう可能性があるため、顕著な脆弱性を示す。
LSSF, underline-Rank underlineSafety underlineSubspace underlineFusion。
提案手法は,低ランクプロジェクション行列の構築により,LLMの安全性情報の低ランク特性を利用する。
論文 参考訳(メタデータ) (2026-01-19T03:59:12Z) - Alignment-Aware Quantization for LLM Safety [30.635936212381726]
大規模言語モデル(LLM)をデプロイする際の安全性と効率性は重要な要素である
本稿では、アライメント保存コントラスト(APC)損失をPTQパイプラインに統合する新しいアプローチであるアライメント・アウェア量子化(AAQ)を提案する。
AAQは標準のPTQ技術と互換性があり、様々なモデルファミリで堅牢な4ビット(W4A4)量子化を可能にする。
論文 参考訳(メタデータ) (2025-11-11T05:24:30Z) - Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs [4.580092836731863]
Low-Rank Adaptation (LoRA) を用いた細調整大型言語モデル(LLM)は、計算コストを削減しつつ適応性を向上する。
既存の安全アライメント手法は、複雑なパラメータシフトを捉えるのに苦労し、最適化された安全性とユーティリティのトレードオフにつながる。
安全性を弱めるLoRA層を選択的に除去する新しいプルーニングベースアプローチであるSafe Pruning LoRA(SPLoRA)を提案する。
論文 参考訳(メタデータ) (2025-06-21T14:59:54Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。