論文の概要: Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04019v1
- Date: Tue, 03 Feb 2026 21:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.276001
- Title: Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルのパラメータ効率の良い微調整における層配置の理解と誘導
- Authors: Yichen Xu, Yuyang Liang, Shan Dai, Tianyang Hu, Tsz Nam Chan, Chenhao Ma,
- Abstract要約: 大規模言語モデル(LLM)は成長を続けており、パラメータ効率の良い微調整が下流適応のデフォルト戦略となっている。
現在のプラクティスは一般的に、すべてのレイヤに対してPEFTを統一的に適用し、レイヤの選択を限定的に理解または活用する。
本稿では,凍結ベースモデル上でPEFTの統一的残差ビューを開発する。
- 参考スコア(独自算出の注目度): 19.448467763421707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to grow, the cost of full-parameter fine-tuning has made parameter-efficient fine-tuning (PEFT) the default strategy for downstream adaptation. Constraints from inference latency in scalable serving and fine-tuning cost in edge or rapid-deployment settings make the choice of which layers to fine-tune unavoidable. Yet current practice typically applies PEFT uniformly across all layers, with limited understanding or leverage of layer selection. This paper develops a unified projected residual view of PEFT on top of a frozen base model. Under a local quadratic approximation, layerwise adaptation is governed by three quantities: (i) the projected residual norm (resnorm), which measures how much correctable bias a layer can capture; (ii) the activation energy, which determines feature conditioning; and (iii) layer coupling, which quantifies how strongly residuals interact across layers. We show that, for squared loss and linear adapters, the resnorm equals a normalized gradient norm, activation energy controls ill-conditioning and noise amplification, and weak coupling yields approximately additive layerwise contributions. Building on these insights, we introduce the Layer Card, a reusable diagnostic that summarizes residual signal strength, compute cost, and performance for each layer of a given model. With an identical model and LoRA configuration, Layer Card-guided placement refines the choice of adapted layers to flexibly prioritize different objectives, such as maximizing performance or reducing fine-tuning cost. Moreover, on Qwen3-8B, we show that selectively adapting a subset of layers can achieve performance close to full-layer LoRA while substantially reducing fine-tuning cost and the number of adapter-augmented layers during inference, offering a more cost-performance-aware alternative to full-layer insertion.
- Abstract(参考訳): 大規模言語モデル (LLMs) が成長を続けるにつれて、パラメータ効率の高い微調整 (PEFT) のコストが下流適応のデフォルト戦略となった。
スケーラブルなサービスにおける推論遅延やエッジや迅速なデプロイ設定における微調整コストからの制約により、どのレイヤを微調整するかは避けられない。
しかし、現在のプラクティスは一般的に、すべてのレイヤに対してPEFTを統一的に適用し、レイヤの選択を限定的に理解または活用しています。
本稿では,凍結ベースモデル上でPEFTの統一的残差ビューを開発する。
局所二次近似の下では、階層的適応は3つの量によって支配される。
i) 層がどの程度の補正可能なバイアスを捉えることができるかを測定する投影された残留ノルム(ノルム)
(二)特徴条件を決定する活性化エネルギー、及び
(iii)層間相互作用の強さを定量化する層結合。
正方形損失と線形アダプタの場合、ノルムは正規化勾配ノルムと等しく、活性化エネルギーは不調和と雑音の増幅を制御し、弱い結合はおよそ付加的なレイヤーワイド寄与をもたらすことを示す。
これらの知見に基づいて、各モデルの残差信号強度、計算コスト、性能を要約した再利用可能な診断であるレイヤカードを導入する。
同じモデルとLoRA構成で、Layer Card-Guided配置は、パフォーマンスの最大化や微調整コストの削減など、異なる目的を柔軟に優先順位付けするための適合したレイヤの選択を洗練させる。
さらに,Qwen3-8Bでは,階層のサブセットを選択的に適用することで全層ロラに近い性能を実現できることを示す。
関連論文リスト
- Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - FLoE: Fisher-Based Layer Selection for Efficient Sparse Adaptation of Low-Rank Experts [47.35092228595656]
FLoEは、(i)MoEベースの低ランク適応のためのタスククリティカルトランスフォーマー層を動的に識別するFisher情報誘導重要度スコアリング機構、(ii)網羅的検索なしで特定のデータセット上で最適なLoRAランクを自動的に決定するベイズ最適化駆動ランクアロケータである。
多様なLCMとベンチマークの実験により、FLoEは顕著な効率と精度のトレードオフを達成し、FLoEは特に迅速な適応を必要とする資源制約環境において有利であることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-31T10:27:08Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
一般的な質問応答ベンチマークでは, あるレイヤを削除してもモデル性能には影響しないことがわかった。
驚くべきことに、この方法では、少数の層が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Adaptive Computation Modules: Granular Conditional Computation For Efficient Inference [12.371152982808914]
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
ACMは、先行する学習者の出力を段階的に洗練する学習者列から構成される。追加のゲーティング機構は、各トークンに対して最適な学習者数を決定する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。