論文の概要: COUNTDOWN: Contextually Sparse Activation Filtering Out Unnecessary Weights in Down Projection
- arxiv url: http://arxiv.org/abs/2505.17701v1
- Date: Fri, 23 May 2025 10:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.986619
- Title: COUNTDOWN: Contextually Sparse Activation Filtering Out Unnecessary Weights in Down Projection
- Title(参考訳): COUNTDOWN: ダウンプロジェクションにおける不要な重みを除去する文脈的にスパースな活性化フィルタ
- Authors: Jaewon Cheon, Pilsung Kang,
- Abstract要約: スパースアクティベーションメソッドは、推論中に非必須パラメータを選択的に非活性化する。
間接係数を利用するM-COUNTDOWNと、線形結合の直接係数を利用するD-COUNTDOWNの2つの方法を提案する。
我々のカーネル実装は、これらの理論的な成果を実質的な実世界の加速に効果的に実現している。
- 参考スコア(独自算出の注目度): 3.647905567437244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing size of large language models has created significant computational inefficiencies. To address this challenge, sparse activation methods selectively deactivates non-essential parameters during inference, reducing computational costs in FFNN layers. While existing methods focus on non-linear gating mechanisms, we hypothesize that the sparsity of the FFNN layer lies globally in the form of a linear combination over its internal down projection matrix. Based on this insight, we propose two methods: M-COUNTDOWN, leveraging indirect coefficients, and D-COUNTDOWN, utilizing direct coefficients of the linear combination. Experimental results demonstrate that D-COUNTDOWN can omit 90% of computations with performance loss as low as 5.5% ideally, while M-COUNTDOWN provides a predictor-free solution with up to 29.4% better performance preservation compared to existing methods. Our specialized kernel implementations effectively realize these theoretical gains into substantial real-world acceleration.
- Abstract(参考訳): 大きな言語モデルのサイズが大きくなると、計算の非効率性が著しく向上した。
この課題に対処するために、スパースアクティベーション法は推論中に非必須パラメータを選択的に非活性化し、FFNN層の計算コストを低減させる。
既存の手法は非線形ゲーティング機構に焦点をあてるが、FFNN層の空間性は内部下降射影行列上の線形結合の形で世界中に存在していると仮定する。
この知見に基づいて、間接係数を利用するM-COUNTDOWNと、線形結合の直接係数を利用するD-COUNTDOWNの2つの方法を提案する。
実験の結果、D-COUNTDOWNは性能損失が5.5%以下の計算の90%を理想的に省略できることが示された。
我々のカーネル実装は、これらの理論的な成果を実質的な実世界の加速に効果的に実現している。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - ZipR1: Reinforcing Token Sparsity in MLLMs [25.92720050123066]
本稿では,トークン削減率を効率報酬として扱い,解答精度を性能報酬として扱う,簡単なRLベースのポストトレーニング手法であるtextbfZipR1を提案する。
実験の結果、ZipR1は13の画像とビデオのベンチマークにおいて、Qwen2/2.5-VLのトークン比を80%から25%に削減できることがわかった。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。