論文の概要: A Layer-wise Analysis of Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.11838v1
- Date: Sun, 12 Apr 2026 12:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.015586
- Title: A Layer-wise Analysis of Supervised Fine-Tuning
- Title(参考訳): 教師付ファインチューニングのレイヤーワイズ解析
- Authors: Qinghua Zhao, Xueling Gong, Xinyu Chen, Zhongfeng Kang, Xinlu Li,
- Abstract要約: Supervised Fine-Tuning (SFT) は破滅的な忘れ込みのリスクを引き起こす。
本稿では,情報理論,幾何,最適化の指標を用いた包括的分析により,このメカニズムについて検討する。
そこで我々は,これらの重要な中間層を選択的に更新するミッドブロック効率チューニングを提案する。
- 参考スコア(独自算出の注目度): 8.337291809639352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While critical for alignment, Supervised Fine-Tuning (SFT) incurs the risk of catastrophic forgetting, yet the layer-wise emergence of instruction-following capabilities remains elusive. We investigate this mechanism via a comprehensive analysis utilizing information-theoretic, geometric, and optimization metrics across model scales (1B-32B). Our experiments reveal a distinct depth-dependent pattern: middle layers (20\%-80\%) are stable, whereas final layers exhibit high sensitivity. Leveraging this insight, we propose Mid-Block Efficient Tuning, which selectively updates these critical intermediate layers. Empirically, our method outperforms standard LoRA up to 10.2\% on GSM8K (OLMo2-7B) with reduced parameter overhead, demonstrating that effective alignment is architecturally localized rather than distributed. The code is publicly available at https://anonymous.4open.science/r/base_sft.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) はアライメントに欠かせないが、命令追従能力の階層的出現はいまだ解明されていない。
モデルスケール (1B-32B) にわたる情報理論, 幾何, 最適化指標を用いて, このメカニズムを包括的解析により検討する。
実験の結果,中層(20\%-80\%)は安定であり,最終層は高い感度を示すことがわかった。
この知見を活用することで、重要な中間層を選択的に更新するMid-Block Efficient Tuningを提案する。
提案手法は,GSM8K (OLMo2-7B) の標準 LoRA を10.2 % まで上回り,パラメータオーバーヘッドを低減し,効率的なアライメントが分散ではなくアーキテクチャ的に局所化されていることを示す。
コードはhttps://anonymous.4open.science/r/base_sft.comで公開されている。
関連論文リスト
- Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。