論文の概要: Alignment Dynamics in LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.18309v1
- Date: Mon, 18 May 2026 12:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.604891
- Title: Alignment Dynamics in LLM Fine-Tuning
- Title(参考訳): LLM微細加工における配向ダイナミクス
- Authors: Yuhan Huang, Huanran Chen, Yinpeng Dong,
- Abstract要約: 大規模言語モデル(LLM)は、人間のフィードバックから教師付き微調整と強化学習を通じて、強い整合性を達成する。
そこで我々は,微調整中にアライメントスコアを導入し,そのクローズドフォーム更新を導出し,アライメントダイナミックスのための統一的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 37.49269074190027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) achieve strong alignment through supervised fine-tuning and reinforcement learning from human feedback, the alignment is often fragile under subsequent fine-tuning. Existing explanations either attribute alignment fragility to gradient geometry or characterize it as a distributional shift in model outputs, yet few provide a unified account that bridges parameter-space learning dynamics with function-space alignment behavior during fine-tuning. In this work, we introduce a tractable alignment score and derive its closed-form update during fine-tuning, yielding a unified framework for alignment dynamics. Our analysis decomposes alignment updates into two competing components: a \textbf{\color{red!60!black} Rebound Force}, governed jointly by the current alignment state and the narrowness of model distribution, and a \textbf{\color{green!60!black} Driving Force}, determined by how the training distribution aligns with outcome-conditioned posteriors over aligned and non-aligned completions. This decomposition explains why prior alignment can be reversed by later fine-tuning and why narrower posterior structure strengthens such reversal. Moreover, our framework predicts a \textbf{Rehearsal Priming Effect}: prior alignment leaves a latent posterior imprint that amplifies the effective Driving Force upon re-exposure, leading to faster re-alignment. We validate these predictions across safety alignment, emergent misalignment, and sentiment settings, demonstrating consistent alignment reversal and accelerated re-alignment under re-exposure. In addition, controlled experiments in safety alignment confirm the predicted dependence of rebound strength on posterior narrowness. Together, these results provide a unified dynamical perspective on how alignment is disrupted and reactivated during LLM fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師付き微調整と人間からのフィードバックからの強化学習を通じて強いアライメントを達成するが、その後の微調整の下では、アライメントは脆弱であることが多い。
既存の説明では、属性アライメントの脆弱さと勾配幾何学、あるいはモデル出力の分布シフトとして特徴付けられるが、微調整中にパラメータ空間学習ダイナミクスと関数空間アライメントの振る舞いをブリッジする統一的な説明は少ない。
そこで本研究では,微調整中にアライメントスコアを抽出し,そのクローズドフォーム更新を導出し,アライメントダイナミクスを統一したフレームワークを提供する。
私たちの分析では、アライメント更新を競合する2つのコンポーネントに分解しています。
60!
black} リバウンドフォースは、現在のアライメント状態とモデル分布の狭さによって共同で管理され、 \textbf{\color{green!
60!
ブラック 運転力 トレーニング分布が、アライメントと非アライメントの完了に対して、結果条件付き後部とどのように整合するかによって決定される。
この分解は、後続の微調整によって先行配向が逆転できる理由と、より狭い後続構造がそのような逆転を強化する理由を説明する。
さらに,我々のフレームワークは,前向きのアライメントが後続のインプリントを残し,再露出時に有効運転力を増幅し,より高速な再調整を実現する,という,‘textbf{rehearsal Priming Effect} を予測している。
我々は、これらの予測を、安全アライメント、緊急アライメント、感情設定にまたがって検証し、一貫したアライメントの逆転と再露出時のアライメントの加速を示す。
さらに, 安全アライメントにおける制御実験により, 後狭度に対するリバウンド強度の予測依存性が確認された。
これらの結果は、LLM微調整中にアライメントが破壊され、再活性化されるかについて、統一的な動的視点を提供する。
関連論文リスト
- Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers [93.3976834364707]
本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
論文 参考訳(メタデータ) (2026-05-16T12:01:04Z) - REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning [5.853890728403084]
最近のテキストモデルは、散在する不均一なタスクのコレクション上で、対照的な事前ファインタニング(PFT)によって、しばしば特殊ドメインに適合する。
このアプローチは多くの場合、ドメイン知識と並行してタスクによって引き起こされるバイアスを導入し、制御されていない表現シフトをもたらす。
埋め込み前ファインタニング中の表現シフトを明示的に制御する表現正規化フレームワークであるRを提案する。
論文 参考訳(メタデータ) (2026-04-19T04:41:55Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety [40.556122962771276]
良質なタスクに関する微調整言語モデルは、予測不能に安全ガードレールを格下げする。
我々は、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを証明する。
我々はこの機構をアライメント不安定条件によって定式化する。
論文 参考訳(メタデータ) (2026-02-17T18:39:15Z) - Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Inducing and Using Alignments for Transition-based AMR Parsing [51.35194383275297]
複雑なパイプラインに依存することなくノード間アライメントを学習するAMRのためのニューラルアライメント器を提案する。
我々は,AMR3.0のビームサーチを必要とせず,銀のトレーニングされた性能に適合する,金のみのトレーニングモデルのための新しい最先端技術を得た。
論文 参考訳(メタデータ) (2022-05-03T12:58:36Z) - Understanding Deformable Alignment in Video Super-Resolution [90.9481291865295]
変形可能な畳み込みは空間変形と畳み込みの組み合わせに分解可能であることを示す。
光フローによるオフセット学習を支援するオフセット忠実度損失を提案する。
論文 参考訳(メタデータ) (2020-09-15T17:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。