論文の概要: Improving Generalization in LLM Structured Pruning via Function-Aware Neuron Grouping
- arxiv url: http://arxiv.org/abs/2512.23014v1
- Date: Sun, 28 Dec 2025 17:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.321936
- Title: Improving Generalization in LLM Structured Pruning via Function-Aware Neuron Grouping
- Title(参考訳): 機能認識ニューロングルーピングによるLLM構造化プルーニングの一般化
- Authors: Tao Yu, Yongqi An, Kuan Zhu, Guibo Zhu, Ming Tang, Jinqiao Wang,
- Abstract要約: FANG(Function-Aware Neuron Grouping)は、大規模言語モデルのための訓練後のプルーニングフレームワークである。
FANGは、それらが処理するセマンティックコンテキストのタイプに基づいて、同様の機能を持つニューロンをグループ化する。
複数のコンテキストタイプにまたがるニューロンを保存する。
- 参考スコア(独自算出の注目度): 39.295067028333335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive performance across natural language tasks but incur substantial computational and storage costs due to their scale. Post-training structured pruning offers an efficient solution. However, when few-shot calibration sets fail to adequately reflect the pretraining data distribution, existing methods exhibit limited generalization to downstream tasks. To address this issue, we propose Function-Aware Neuron Grouping (FANG), a post-training pruning framework that alleviates calibration bias by identifying and preserving neurons critical to specific function. FANG groups neurons with similar function based on the type of semantic context they process and prunes each group independently. During importance estimation within each group, tokens that strongly correlate with the functional role of the neuron group are given higher weighting. Additionally, FANG also preserves neurons that contribute across multiple context types. To achieve a better trade-off between sparsity and performance, it allocates sparsity to each block adaptively based on its functional complexity. Experiments show that FANG improves downstream accuracy while preserving language modeling performance. It achieves the state-of-the-art (SOTA) results when combined with FLAP and OBC, two representative pruning methods. Specifically, FANG outperforms FLAP and OBC by 1.5%--8.5% in average accuracy under 30% and 40% sparsity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のタスクにまたがる優れたパフォーマンスを示すが、そのスケールのために計算と記憶のコストがかなり高い。
訓練後の構造化プルーニングは効率的なソリューションを提供する。
しかし、事前学習したデータ分布を適切に反映できない場合、既存の手法では下流タスクへの限定的な一般化が示される。
この問題に対処するため,我々は,特定の機能に重要なニューロンを特定し,保存することにより,校正バイアスを軽減する訓練後プラニングフレームワークであるFANG(Function-Aware Neuron Grouping)を提案する。
FANGは、それらが処理するセマンティックコンテキストのタイプに基づいて、同様の機能を持つニューロンをグループ化し、各グループを独立してプーンする。
各グループの重要度推定において、ニューロン群の機能的役割と強く相関するトークンはより重み付けされる。
さらに、FANGは複数のコンテキストタイプにまたがるニューロンも保存する。
スパシティとパフォーマンスのトレードオフを改善するために、機能的複雑性に基づいて各ブロックにスパシティを適応的に割り当てる。
実験により、FANGは言語モデリング性能を保ちながら下流の精度を向上させることが示された。
FLAP と OBC と組み合わせることで, 最先端のSOTA (State-of-the-art) を実現する。
具体的には、FANG は FLAP と OBC を 30% と 40% の間隔で平均精度 1.5%--8.5% で上回っている。
関連論文リスト
- Functional Random Forest with Adaptive Cost-Sensitive Splitting for Imbalanced Functional Data Classification [0.0]
本稿では,不均衡な機能データ分類のための新しいアンサンブルフレームワークであるFRF-ACS(Adaptive Cost-Sensitive Splitting)を導入する。
不均衡に対処するため,各ノードのクラス重みを局所的に調整する動的コスト感度分割基準を組み込んだ。
合成および実世界のデータセットの実験により、FRF-ACSは少数クラスのリコールと全体的な予測性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-02T04:57:51Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Bridging KAN and MLP: MJKAN, a Hybrid Architecture with Both Efficiency and Expressiveness [5.474797258314827]
Modulation Joint Kan (MJKAN)は、これらの課題を克服するために設計された新しいニューラルネットワーク層である。
MJKANは、FILM(Feature-wise Linear Modulation)のようなメカニズムと放射基底関数の活性化を統合している。
我々は,関数回帰,画像分類(MNIST, CIFAR-10/100),自然言語処理(AG News, SMS)など,様々なベンチマークでMJKANの性能を実証的に検証した。
論文 参考訳(メタデータ) (2025-07-07T06:13:32Z) - Revisiting Large Language Model Pruning using Neuron Semantic Attribution [63.62836612864512]
人気プルーニング手法を用いて,24のデータセットと4つのタスクの評価を行った。
感情分類タスクでは,既存のプルーニング手法の大幅な性能低下がみられた。
本稿では,各ニューロンと特定の意味論を関連づけることを学ぶニューロン意味属性を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:52:17Z) - An Efficient Sparse Fine-Tuning with Low Quantization Error via Neural Network Pruning [9.208007322096535]
ニューラルネットワークプルーニングのアイデアに基づく新しいSpFTフレームワークを開発した。
提案手法は,LoRAの変種のような最先端手法の精度に適合しながら,SpFTのメモリ効率を20~50%向上することを示す。
論文 参考訳(メタデータ) (2025-02-17T04:54:42Z) - Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models [10.517704202614091]
sparse Mixture-of-Experts (MoEs) は、例ごとのFLOPを比例的に増やさずにパラメータの数をスケールできる。
本研究では,不活性パラメータの比率が,事前学習および下流数ショット評価におけるモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-21T18:51:15Z) - Variable Importance in High-Dimensional Settings Requires Grouping [19.095605415846187]
Conditional Permutation Importance (CPI)は、そのような場合のPIの制限をバイパスする。
クラスタリングまたはいくつかの事前知識を介して統計的に変数をグループ化すると、ある程度のパワーバックが得られる。
重み付けにより拡張された手法は,高相関なグループであっても,型Iエラーを制御可能であることを示す。
論文 参考訳(メタデータ) (2023-12-18T00:21:47Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。