論文の概要: Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2606.05516v1
- Date: Wed, 03 Jun 2026 23:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.440796
- Title: Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs
- Title(参考訳): ドミナント層ZO:LDMのゼロ次微調整に支配的な単一層
- Authors: Wanhao Yu, Ziyan Wang, Zheng Wang, Abeer Matar Almalky, Yihang Zuo, Shuteng Niu, Sen Lin, Adnan Siraj Rakin, Deliang Fan, Li Yang,
- Abstract要約: Zeroth-order (ZO) 最適化により、前方パスのみを使用して大きな言語モデル(LLM)をメモリ効率よく微調整できる。
ZOファインチューニングは1つのデコード層に大きく支配されている。
LLaMA2-7B と Qwen3-8B を9つのベンチマークで比較したところ、支配層型ZOファインチューニングはフルモデル MeZO と LoRA ベースのZOファインチューニングよりも平均性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 32.78500862748985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization enables memory-efficient fine-tuning of large language models (LLMs) using only forward passes, but it remains unclear how useful adaptation is distributed across layers. In this work, we reveal a surprising phenomenon: ZO fine-tuning is sharply dominated by a single decoding layer. Across multiple LLM families and downstream tasks, fine-tuning this dominant layer alone consistently matches or even exceeds full-model ZO fine-tuning. We further show that the dominant layer is task-agnostic but model-specific, and can be identified before training through a simple inference-only analysis of activation outliers. Specifically, the dominant layer consistently aligns with the first activation-outlier layer in the pre-trained model. To explain this phenomenon, we analyze how perturbation effects propagate under ZO optimization. We find that the dominant layer combines two key properties: high perturbation sensitivity and early placement in the residual stream, allowing perturbation-induced effects to propagate and accumulate through remaining subsequent decoding layers. As a result, this layer produces disproportionately strong and stable optimization signals under forward-only updates. Extensive experiments on LLaMA2-7B and Qwen3-8B across nine benchmarks show that dominant-layer ZO fine-tuning improves average performance over full-model MeZO and LoRA-based ZO fine-tuning while achieving up to 4.52$\times$ training speedup.
- Abstract(参考訳): Zeroth-order (ZO) 最適化により,前方パスのみを用いた大規模言語モデル (LLM) のメモリ効率の微調整が可能となった。
ZOファインチューニングは1つのデコード層に大きく支配されている。
複数のLLMファミリーと下流タスクをまたいで、この支配的なレイヤのみを微調整することは、フルモデルZOの微調整よりも一貫して、あるいは超える。
さらに、支配層はタスクに依存しないがモデル固有であり、アクティベーションアウトリアの単純な推論のみの分析によってトレーニング前に識別可能であることを示す。
具体的には、支配層は、事前訓練されたモデルにおいて、第1のアクティベーション・アウトリア層と一貫して整合する。
この現象を説明するために、ZO最適化の下で摂動効果がどのように伝播するかを分析する。
支配層は,高摂動感度と残流の初期配置の2つの重要な特性を結合し,その後の復号層を伝播・蓄積する。
その結果、この層はフォワードオンリー更新の下で不均等に強力で安定した最適化信号を生成する。
LLaMA2-7B と Qwen3-8B の9つのベンチマークによる大規模な実験により、支配層 ZO の微調整はフルモデル MeZO と LoRA ベースの ZO の微調整よりも平均性能を向上し、最大4.52$\times$ のトレーニングスピードアップを達成した。
関連論文リスト
- LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs [3.80555579179805]
LayerBoostは推論遅延を低減し、スループットを最大68%向上する。
いくつかのベンチマークでベースモデルのパフォーマンスと一致し、他のベンチマークでは小さな劣化しか示さず、最先端の注目線形化手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-23T20:12:19Z) - Layer by layer, module by module: Choose both for optimal OOD probing of ViT [16.482899285404145]
予め学習した視覚変換器における中間層の挙動について検討する。
事前学習データと下流データの分布変化が性能劣化の主な原因であることがわかった。
論文 参考訳(メタデータ) (2026-03-05T15:23:41Z) - GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs [10.61152477422108]
GradPrunerは、微調整の初期段階において、勾配によってガイドされる大規模言語モデルのレイヤをプルークすることができる。
結果、GradPrunerはパラメータを40%削減し、精度は0.99%しか低下していないことがわかった。
論文 参考訳(メタデータ) (2026-01-27T11:41:26Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。