論文の概要: LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions
- arxiv url: http://arxiv.org/abs/2505.23811v2
- Date: Tue, 03 Jun 2025 21:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.478762
- Title: LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions
- Title(参考訳): LayerIF: 影響関数を用いた大規模言語モデルの層品質推定
- Authors: Hadi Askari, Shivanshu Gupta, Fei Wang, Anshuman Chhabra, Muhao Chen,
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、幅広いタスクで高いパフォーマンスを達成する。
LLMは、特定の下流アプリケーションに対して、様々なレイヤのトレーニング品質にかなりのばらつきを示す。
本稿では,各レイヤのトレーニング品質を,原則的かつタスクに敏感な方法で定量化するLayerIFを提案する。
- 参考スコア(独自算出の注目度): 33.23446361483562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Large Language Models (LLMs) achieve strong performance across a wide range of tasks, yet exhibit substantial variability in the various layers' training quality with respect to specific downstream applications, limiting their downstream performance. It is therefore critical to estimate layer-wise training quality in a manner that accounts for both model architecture and training data. However, existing approaches predominantly rely on model-centric heuristics (such as spectral statistics, outlier detection, or uniform allocation) while overlooking the influence of data. To address these limitations, we propose LayerIF, a data-driven framework that leverages Influence Functions to quantify the training quality of individual layers in a principled and task-sensitive manner. By isolating each layer's gradients and measuring the sensitivity of the validation loss to training examples by computing layer-wise influences, we derive data-driven estimates of layer importance. Notably, our method produces task-specific layer importance estimates for the same LLM, revealing how layers specialize for different test-time evaluation tasks. We demonstrate the utility of our scores by leveraging them for two downstream applications: (a) expert allocation in LoRA-MoE architectures and (b) layer-wise sparsity distribution for LLM pruning. Experiments across multiple LLM architectures demonstrate that our model-agnostic, influence-guided allocation leads to consistent gains in task performance.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、幅広いタスクにわたって強力なパフォーマンスを達成するが、特定の下流アプリケーションに対して、様々なレイヤのトレーニング品質に大きなばらつきを示し、下流のパフォーマンスを制限している。
したがって、モデルアーキテクチャとトレーニングデータの両方を考慮に入れた方法で、レイヤワイズなトレーニング品質を見積もることは非常に重要です。
しかし、既存のアプローチは、データの影響を見越しながら、主にモデル中心のヒューリスティック(スペクトル統計、アウター検出、均一割り当てなど)に依存している。
このような制限に対処するために,インフルエンス関数を利用したデータ駆動型フレームワークであるLayerIFを提案し,各レイヤのトレーニング品質を,原則的かつタスクに敏感な方法で定量化する。
各層の勾配を分離し, 実験例に対する検証損失の感度を測定することによって, データ駆動による重要度推定を導出する。
特に,本手法は同一のLCMに対してタスク固有の層重み付けを行い,異なるテスト時間評価タスクに特化している層を明らかにする。
2つのダウンストリームアプリケーションにそれらを活用することで、スコアの有用性を実証する。
(a) LoRA-MoEアーキテクチャのエキスパートアロケーション
b) LLMプルーニングにおける層幅分布
複数のLLMアーキテクチャをまたいだ実験により、モデルに依存しない、影響を誘導するアロケーションが、タスクパフォーマンスにおいて一貫した利益をもたらすことが示された。
関連論文リスト
- Layer-Aware Embedding Fusion for LLMs in Text Classifications [1.4250487522292254]
層認識型埋め込み選択法を提案し, 異なる層を定量的に評価し, 下流のNLPタスクにおいて最も重要なものを特定する方法について検討する。
4つの英語テキスト分類データセットの実験により、LLMの異なる層は、分類のための表現力の度合いが異なることが示された。
また、モデル微調整を必要とせず、複数のLLMからの埋め込みを組み合わせることで、パフォーマンスが向上する可能性についても検討する。
論文 参考訳(メタデータ) (2025-04-08T07:45:50Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Layer Importance and Hallucination Analysis in Large Language Models via Enhanced Activation Variance-Sparsity [5.854247492297834]
本稿では,アクティベーション・ヴァリタンス・スパーシリティスコア(AVSS)を用いて,まず層の重要性を考察する。
AVSSを基盤として,レイヤ間の幻覚の適合性を評価するための改良版を提案する。
この改良されたアプローチは、Halucination-Specific Activation Variance(HSAV)とHalucination-Specific Sparsity(HSS)メトリクスを導入し、Halucination-prone層の正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-15T09:33:47Z) - AVSS: Layer Importance Evaluation in Large Language Models via Activation Variance-Sparsity Analysis [5.854247492297834]
本稿では,各層がモデル性能に与える影響を評価するために,正規化活性化分散と疎性を組み合わせた新しい計量法を提案する。
AVSSに基づいて、約25%のレイヤを特定し、取り除くことにより、元のモデル性能の90%以上を達成できる。
論文 参考訳(メタデータ) (2024-11-04T14:29:49Z) - Understanding Layer Significance in LLM Alignment [23.582520695083588]
大規模言語モデル内のどの層がアライメントプロセスに最も重要かを特定することを提案する。
実験の結果、アライメントデータセットにかなりの違いがあるにもかかわらず、モデルの重要層が90%近く重複していることが判明した。
また, 最重要層を選択的に調整することで, 性能損失を最小限に抑え, 微調整効率を著しく向上させることができた。
論文 参考訳(メタデータ) (2024-10-23T13:47:05Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。