論文の概要: Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07804v1
- Date: Sun, 08 Feb 2026 03:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.810201
- Title: Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models
- Title(参考訳): 協調ゲームとしてのプルーニング:大規模言語モデルのサロゲート支援層寄与度推定
- Authors: Xuan Ding, Pengyu Tong, Ranjie Duan, Yunjian Zhang, Rui Sun, Yao Zhu,
- Abstract要約: レイヤーワイズプルーニングは推論コストを軽減するために一般的に使用される戦略である。
本稿では,協調ゲームとしてレイヤープルーニングを定式化するゲーム理論フレームワークを提案する。
大規模な言語モデルに対して、より効率的で効果的なレイヤワイドプルーニングを実現する。
- 参考スコア(独自算出の注目度): 17.818685759025207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) demonstrate impressive performance across various tasks, their deployment in real-world scenarios is still constrained by high computational demands. Layer-wise pruning, a commonly employed strategy to mitigate inference costs, can partially address this challenge. However, existing approaches generally depend on static heuristic rules and fail to account for the interdependencies among layers, thereby limiting the effectiveness of the pruning process. To this end, this paper proposes a game-theoretic framework that formulates layer pruning as a cooperative game in which each layer acts as a player and model performance serves as the utility. As computing exact Shapley values is computationally infeasible for large language models (LLMs), we propose using a lightweight surrogate network to estimate layer-wise marginal contributions. This network can predict LLM performance for arbitrary layer combinations at a low computational cost. Additionally, we employ stratified Monte Carlo mask sampling to further reduce the cost of Sharpley value estimation. This approach captures inter-layer dependencies and dynamically identifies critical layers for pruning. Extensive experiments demonstrate the consistent superiority of our method in terms of perplexity and zero-shot accuracy, achieving more efficient and effective layer-wise pruning for large language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがる優れたパフォーマンスを示すが、実際のシナリオへの展開は依然として高い計算要求に制約されている。
推論コストを軽減するために一般的に使用される戦略であるレイヤワイドプルーニングは、この課題に部分的に対処することができる。
しかし、既存のアプローチは一般に静的ヒューリスティックなルールに依存しており、層間の相互依存を考慮できないため、プルーニングプロセスの有効性が制限される。
そこで本研究では,各レイヤがプレイヤとして機能し,モデル性能がユーティリティとして機能する協調ゲームとして,レイヤプルーニングを定式化するゲーム理論フレームワークを提案する。
大規模言語モデル(LLM)では,正確なShapley値の計算が不可能であるため,レイヤワイドの限界寄与を推定するために軽量なサロゲートネットワークを提案する。
このネットワークは、計算コストの低い任意の層の組み合わせに対してLLM性能を予測できる。
さらに、シャープレー値推定のコストをさらに削減するために、成層モンテカルロマスクサンプリングを用いる。
このアプローチはレイヤ間の依存関係をキャプチャし、プルーニングの重要なレイヤを動的に識別する。
広汎な実験により,提案手法の難易度とゼロショット精度において一貫した優位性を実証し,大規模言語モデルに対してより効率的かつ効果的なレイヤワイドプルーニングを実現する。
関連論文リスト
- The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - CoLA: Collaborative Low-Rank Adaptation [3.421904493396495]
特定のタスクに対する事前学習モデルの微調整は、高い性能を達成するが、計算的に高価で非効率である。
LoRAは特に有効であることが証明されているが、マルチタスクシナリオへの応用はタスク間の干渉によって制限されている。
我々は、より柔軟なLoRAアーキテクチャと3つの協調戦略であるCoLAを提案し、$A$と$B$の間の量的関係をよりよく活用することでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-21T12:46:42Z) - Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models [43.4962029013024]
大規模言語モデル(LLM)のプルーニングは、性能を保ちながら、モデルのサイズと計算の複雑さを減らすための有望なソリューションである。
LLMのためのShapley Value-based Non-Uniform Pruning (SV-NUP)法を提案する。
このアプローチは,各トランス層がモデル全体の性能に与える影響を定量的に評価し,各層に最適化されたプルーニング予算を割り当てることで,臨界パラメータを維持できる。
論文 参考訳(メタデータ) (2025-05-03T07:57:02Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。