Fugu-MT 論文翻訳(概要): CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

論文の概要: CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

arxiv url: http://arxiv.org/abs/2409.01366v1
Date: Mon, 2 Sep 2024 16:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 06:11:05.424223
Title: CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification
Title（参考訳）: CHESS: Channel-Wise ThresholdingとSelective SparsificationによるLLM推論の最適化
Authors: Junhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li,
Abstract要約: エッジデバイス上の大規模言語モデル(LLM)は、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題を呈している。活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。本稿では,CHESS(CHannel-wise thrEsholding and Selective Sparsification)による一般的なアクティベーションスカラー化手法を紹介する。
参考スコア（独自算出の注目度）: 7.8430836312711465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying large language models (LLMs) on edge devices presents significant challenges due to the substantial computational overhead and memory requirements. Activation sparsification can mitigate these challenges by reducing the number of activated neurons during inference. Existing methods typically employ thresholding-based sparsification based on the statistics of activation tensors. However, these methods do not explicitly model the impact of activation sparsification on performance, leading to suboptimal performance degradation. To address this issue, this paper reformulates the activation sparsification problem by introducing a new objective that optimizes the sparsification decisions. Building on this reformulation, we propose CHESS, a general activation sparsification approach via CHannel-wise thrEsholding and Selective Sparsification. First, channel-wise thresholding assigns a unique threshold to each activation channel in the feed-forward network (FFN) layers. Then, selective sparsification involves applying thresholding-based activation sparsification to specific layers within the attention modules. Finally, we detail the implementation of sparse kernels to accelerate LLM inference. Experimental results demonstrate that the proposed CHESS achieves lower performance degradation over 8 downstream tasks while activating fewer parameters compared to existing methods, thus speeding up the LLM inference by up to 1.27x.
Abstract（参考訳）: エッジデバイスに大規模言語モデル(LLM)をデプロイすることは、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題となる。活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。既存の手法では、アクティベーションテンソルの統計に基づく閾値に基づくスペーシングが一般的である。しかし、これらの手法は、アクティベーションスペーシフィケーションがパフォーマンスに与える影響を明示的にモデル化するものではない。この問題に対処するため,本論文では,スパーシフィケーション決定を最適化する新たな目的を導入することにより,アクティベーションスペーシフィケーション問題を再考する。本稿では,この改革を基礎として,Channel-wise thrEsholding と Selective Sparsification による一般活性化スカラー化手法であるCHESSを提案する。第一に、チャネルワイドの閾値付けは、フィードフォワードネットワーク(FFN)層内の各アクティベーションチャネルにユニークな閾値を割り当てる。次に、選択的なスペーシフィケーションは、アテンションモジュール内の特定の層に閾値に基づくアクティベーションスペーシフィケーションを適用する。最後に,LLM推論を高速化するスパースカーネルの実装について述べる。実験結果から,提案したCHESSは,既存の手法に比べてパラメータを小さくし,最大1.27倍の高速化を実現していることがわかった。

関連論文リスト

Resting Neurons, Active Insights: Improving Input Sparsification for Large Language Models [42.12574676719046]
大規模言語モデル(LLM)は、幅広いアプリケーションにわたって最先端のパフォーマンスを達成する。構造的プルーニングは、ニューロンなどの冗長な計算単位を除去することでモデルサイズを小さくし、解法として広く研究されている。本研究は,入力毎の入力値のサブセットのみを選択的に活性化することにより効率を向上する手法である入力スペーシフィケーションに注力する。
論文参考訳（メタデータ） (2025-12-14T15:47:40Z)
Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文参考訳（メタデータ） (2025-10-01T15:39:38Z)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。 WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳（メタデータ） (2025-05-26T02:37:32Z)
Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Models [45.938663388013445]
本報告では,最後の数層における高影響活性化の小さなセットが,長大な推論特性を支配していることを示す。これらのアクティベーションを増幅し、"待機"トークンを挿入することで、トレーニングなしで長いCoT機能を呼び出すことができます。
論文参考訳（メタデータ） (2025-05-23T10:07:18Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文参考訳（メタデータ） (2025-02-06T13:03:05Z)
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文参考訳（メタデータ） (2024-09-29T15:40:54Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文参考訳（メタデータ） (2024-02-21T03:58:49Z)
Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-02-09T01:18:16Z)
ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文参考訳（メタデータ） (2023-10-06T20:01:33Z)
Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2023-10-06T16:34:51Z)
Controlled Sparsity via Constrained Optimization or: How I Learned to Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文参考訳（メタデータ） (2022-08-08T21:24:20Z)
Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文参考訳（メタデータ） (2022-02-21T13:25:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。