論文の概要: WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2505.19427v1
- Date: Mon, 26 May 2025 02:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.114876
- Title: WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference
- Title(参考訳): WINA:大規模言語モデル推論の高速化のための軽量インフォームドニューロン活性化
- Authors: Sihan Chen, Dan Zhao, Jongwoo Ko, Colby Banbury, Huiping Zhuang, Luming Liang, Tianyi Chen,
- Abstract要約: WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。
WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。
また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
- 参考スコア(独自算出の注目度): 44.538579135121466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing computational demands of large language models (LLMs) make efficient inference and activation strategies increasingly critical. While recent approaches, such as Mixture-of-Experts (MoE), leverage selective activation but require specialized training, training-free sparse activation methods offer broader applicability and superior resource efficiency through their plug-and-play design. However, many existing methods rely solely on hidden state magnitudes to determine activation, resulting in high approximation errors and suboptimal inference accuracy. To address these limitations, we propose WINA (Weight Informed Neuron Activation), a novel, simple, and training-free sparse activation framework that jointly considers hidden state magnitudes and the column-wise $\ell_2$-norms of weight matrices. We show that this leads to a sparsification strategy that obtains optimal approximation error bounds with theoretical guarantees tighter than existing techniques. Empirically, WINA also outperforms state-of-the-art methods (e.g., TEAL) by up to $2.94\%$ in average performance at the same sparsity levels, across a diverse set of LLM architectures and datasets. These results position WINA as a new performance frontier for training-free sparse activation in LLM inference, advancing training-free sparse activation methods and setting a robust baseline for efficient inference. The source code is available at https://github.com/microsoft/wina.
- Abstract(参考訳): 大規模言語モデル(LLM)の計算要求の増大は、効率的な推論とアクティベーション戦略をますます重要にしている。
近年のMixture-of-Experts (MoE)のようなアプローチでは、選択的なアクティベーションを利用するが、特別なトレーニングを必要とするが、トレーニング不要のスパースアクティベーション手法は、プラグアンドプレイ設計によりより広い適用性と優れたリソース効率を提供する。
しかし、多くの既存手法は、アクティベーションを決定するために隠れ状態の大きさにのみ依存しており、高い近似誤差と準最適推測精度をもたらす。
これらの制約に対処するために、隠れ状態の規模と重み行列のカラム単位の$\ell_2$-normsを共同で考える、新しく、シンプルで、訓練不要なスパース活性化フレームワークWINA(Weight Informed Neuron Activation)を提案する。
これにより,従来の手法よりも厳密な理論的保証で最適近似誤差境界を求めるスペーシフィケーション戦略が導かれることを示す。
WINAはまた、様々なLLMアーキテクチャとデータセットのセットで、同じ空間レベルでの平均パフォーマンスを最大2.94 %$で、最先端のメソッド(例:TEAL)よりも優れています。
これらの結果から、WINAはLLM推論におけるトレーニングフリースパースアクティベーション、トレーニングフリースパースアクティベーション手法の進歩、効率的な推論のための堅牢なベースラインの設定において、新たなパフォーマンスフロンティアとして位置づけられた。
ソースコードはhttps://github.com/microsoft/wina.comで入手できる。
関連論文リスト
- ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - CoLA: Collaborative Low-Rank Adaptation [3.421904493396495]
特定のタスクに対する事前学習モデルの微調整は、高い性能を達成するが、計算的に高価で非効率である。
LoRAは特に有効であることが証明されているが、マルチタスクシナリオへの応用はタスク間の干渉によって制限されている。
我々は、より柔軟なLoRAアーキテクチャと3つの協調戦略であるCoLAを提案し、$A$と$B$の間の量的関係をよりよく活用することでパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-21T12:46:42Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。