論文の概要: TraceNAS: Zero-shot LLM Pruning via Gradient Trace Correlation
- arxiv url: http://arxiv.org/abs/2602.02891v1
- Date: Mon, 02 Feb 2026 22:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.124474
- Title: TraceNAS: Zero-shot LLM Pruning via Gradient Trace Correlation
- Title(参考訳): TraceNAS: グラジエントトレース相関によるゼロショットLDMプルーニング
- Authors: Prajna G. Malettira, Manish Nagaraj, Arjun Roy, Shubham Negi, Kaushik Roy,
- Abstract要約: 学習不要なニューラルネットワーク探索(NAS)フレームワークであるTraceNASを提案する。
TraceNASは、スケール不変のゼロショットプロキシを使用して、事前訓練されたモデルと高い損失ランドスケープアライメントを維持するプルーンドモデルを特定する。
非常に効率的で、単一のGPU上で8.5時間でプルーニングされたモデルの高忠実な発見を可能にする。
- 参考スコア(独自算出の注目度): 8.726465590483231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning is essential for efficient deployment of Large Language Models (LLMs). The varying sensitivity of LLM sub-blocks to pruning necessitates the identification of optimal non-uniformly pruned models. Existing methods evaluate the importance of layers, attention heads, or weight channels in isolation. Such localized focus ignores the complex global structural dependencies that exist across the model. Training-aware structured pruning addresses global dependencies, but its computational cost can be just as expensive as post-pruning training. To alleviate the computational burden of training-aware pruning and capture global structural dependencies, we propose TraceNAS, a training-free Neural Architecture Search (NAS) framework that jointly explores structured pruning of LLM depth and width. TraceNAS identifies pruned models that maintain a high degree of loss landscape alignment with the pretrained model using a scale-invariant zero-shot proxy, effectively selecting models that exhibit maximal performance potential during post-pruning training. TraceNAS is highly efficient, enabling high-fidelity discovery of pruned models on a single GPU in 8.5 hours, yielding a 10$\times$ reduction in GPU-hours compared to training-aware methods. Evaluations on the Llama and Qwen families demonstrate that TraceNAS is competitive with training-aware baselines across commonsense and reasoning benchmarks.
- Abstract(参考訳): 構造化プルーニングは、Large Language Models (LLM) の効率的なデプロイに不可欠である。
LLMサブブロックのプルーニングに対する感度の変化は、最適な非一様プルーニングモデルの同定を必要とする。
既存の手法では、レイヤ、アテンションヘッド、ウェイトチャネルの分離の重要性を評価している。
このような局所的な焦点は、モデル全体に存在する複雑なグローバルな構造的依存関係を無視します。
トレーニング対応の構造化プルーニングは、グローバルな依存関係に対処するが、その計算コストは、ポストプルーニングトレーニングと同じくらい高くつく。
本研究では,LLM深度と幅の構造化プルーニングを共同で検討する,学習不要なニューラルネットワーク探索(NAS)フレームワークであるTraceNASを提案する。
TraceNASは、スケール不変のゼロショットプロキシを使用して、事前訓練されたモデルと高い損失ランドスケープアライメントを維持するプルーニングモデルを特定し、プルーニング後のトレーニング中に最大パフォーマンスのポテンシャルを示すモデルを効果的に選択する。
TraceNASは非常に効率的で、単一のGPU上で8.5時間でプルーニングされたモデルを高忠実に発見できる。
LlamaとQwenファミリーの評価は、TraceNASがコモンセンスと推論ベンチマークをまたいだトレーニング対応ベースラインと競合していることを示している。
関連論文リスト
- RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - GradAlign for Training-free Model Performance Inference [11.578933730530832]
トレーニングフリーなニューラルアーキテクチャサーチ(NAS)は、広範なトレーニングを必要とせずに理想的なアーキテクチャを発見することを目的としている。
GradAlignは、トレーニングを必要とせずにモデルパフォーマンスを推論するために設計された、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2024-11-29T16:27:55Z) - RL-Pruner: Structured Pruning Using Reinforcement Learning for CNN Compression and Acceleration [0.0]
RL-Prunerを提案する。このRL-Prunerは、強化学習を用いて最適プルーニング分布を学習する。
RL-Prunerは、モデル固有のプルーニング実装を必要とせずに、入力モデル内のフィルタ間の依存関係を自動的に抽出し、プルーニングを実行する。
論文 参考訳(メタデータ) (2024-11-10T13:35:10Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。
1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。