論文の概要: LLMs can Compress LLMs: Adaptive Pruning by Agents
- arxiv url: http://arxiv.org/abs/2601.09694v1
- Date: Wed, 14 Jan 2026 18:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.505469
- Title: LLMs can Compress LLMs: Adaptive Pruning by Agents
- Title(参考訳): LLM は LLM を圧縮できる: エージェントによる適応的プルーニング
- Authors: Sai Varun Kodathala, Rakesh Vunnam,
- Abstract要約: ポストトレーニングプルーニングは、性能を保ちながら計算コストを削減するための有望なアプローチとして現れている。
我々はエージェント誘導プルーニングを導入し、ファンデーションモデルが適応プルーニングエージェントとして機能する。
我々はQ3モデル(4Bおよび8Bパラメータ)の約45%の間隔で評価を行い、構造化プルーニングベースラインよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) continue to scale, post-training pruning has emerged as a promising approach to reduce computational costs while preserving performance. Existing methods such as SparseGPT and Wanda achieve high sparsity through layer-wise weight reconstruction or activation-aware magnitude pruning, but rely on uniform or hand-crafted heuristics to determine per-layer sparsity ratios. Moreover, recent work has shown that pruned LLMs suffer from severe factual knowledge degradation, with structured pruning methods experiencing near-total collapse in factual question-answering capabilities. We introduce agent-guided pruning, where a foundation model acts as an adaptive pruning agent to intelligently select which layers to prune at each iteration while preserving critical knowledge pathways. Our method constructs layer-wise sensitivity profiles by combining Wanda-inspired weight-activation metrics with gradient importance scores, normalized as z-scores for model-agnostic comparison. These statistics are processed by an LLM agent equipped with self-reflection capabilities, enabling it to learn from previous pruning outcomes and iteratively refine its strategy. A checkpoint rollback mechanism maintains model quality by reverting when perplexity degradation exceeds a threshold. We evaluate our approach on Qwen3 models (4B and 8B parameters) at approximately 45% sparsity, demonstrating substantial improvements over structured pruning baselines: 56% relative improvement in MMLU accuracy, 19x better factual knowledge retention on FreebaseQA, and 69% lower perplexity degradation. Notably, our framework requires no retraining, operates in a model-agnostic manner, and exhibits effective self-correction with only 2-4 rollbacks across 21-40 iterations, demonstrating that foundation models can effectively guide the compression of other foundation models.
- Abstract(参考訳): 大規模言語モデル (LLMs) のスケールが拡大するにつれて、性能を維持しながら計算コストを削減できる有望なアプローチとしてポストトレーニングプルーニングが出現している。
SparseGPT や Wanda のような既存の手法は、層単位での重み付けやアクティベーション・アウェア・マグニチュード・プルーニングを通じて高い疎度を達成するが、一様または手作りのヒューリスティックに頼り、層ごとの疎度比を決定する。
さらに,近年の研究では,pruned LLMが深刻な事実知識劣化に悩まされ,構造的pruning法が現実の質問応答能力においてほぼ完全に崩壊することが示された。
我々はエージェント誘導型プルーニングを導入し、ファンデーションモデルが適応型プルーニングエージェントとして機能し、重要な知識経路を維持しつつ、各イテレーションでどのレイヤをプルーするかをインテリジェントに選択する。
本手法は,モデル非依存比較のためのzスコアとして正規化され,Wandaにインスパイアされた重みアクティベーション指標と勾配重要度スコアを組み合わせ,層別感度プロファイルを構築した。
これらの統計は自己回帰機能を備えたLLMエージェントによって処理され、以前の刈り取り結果から学習し、その戦略を反復的に洗練することができる。
チェックポイントロールバック機構は、パープレキシティ劣化がしきい値を超えた場合の反転によりモデル品質を維持する。
我々はQwen3モデル(4Bおよび8Bパラメータ)に対するアプローチを約45%の間隔で評価し、構造化プルーニングベースラインに対する大幅な改善を示し、MMLU精度の56%向上、FreebaseQAにおける19倍の知識保持、および69%のパープレキシティ劣化を示した。
特に,本フレームワークは,リトレーニングを必要とせず,モデルに依存しない方法で動作し,21~40回に2~4回しかロールバックしない効果的な自己補正を行い,基礎モデルが他の基礎モデルの圧縮を効果的に導くことを示す。
関連論文リスト
- Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models [31.422773877490613]
推論 LLM (Reasoning LLMs) はチェーン・オブ・ソート・ジェネレーションを通じて強力な多段階推論を実現する。
RLMの大きなモデルサイズと長いデコードタイムのアウトプットは、リソース制約のある設定にデプロイするのにコストがかかり、不適当である。
我々は、構造化されたプルーニングフレームワークであるRESPを紹介し、プルーニング決定とモデルの推論力学を一致させる。
論文 参考訳(メタデータ) (2025-12-01T20:27:05Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。
提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。
提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文 参考訳(メタデータ) (2025-06-10T02:24:32Z) - Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文 参考訳(メタデータ) (2025-03-08T12:00:21Z) - Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models [11.93284417365518]
我々は,ハイブリッド・グラニュラリティ・プルーニング戦略を用いた軽量なポストトレーニング構造化プルーニング手法Compumを紹介する。
Compは、LLM-Prunerと比較して20%のプルーニング比でLLaMA-2-7Bモデルの性能を6.13%向上させる。
論文 参考訳(メタデータ) (2025-01-25T16:03:58Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。