論文の概要: SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating
- arxiv url: http://arxiv.org/abs/2310.04361v2
- Date: Mon, 26 Feb 2024 11:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 04:28:02.502857
- Title: SADMoE: Exploiting Activation Sparsity with Dynamic-k Gating
- Title(参考訳): SADMoE: Dynamic-k Gating によるアクティベーションスパシティの爆発
- Authors: Filip Szatkowski, Bartosz W\'ojcik, Miko{\l}aj Pi\'orczy\'nski, Kamil
Adamczewski
- Abstract要約: トランスフォーマーモデルは、ネットワークの一部をMixture-of-Experts層に変換することで、推論コストを削減するために利用することができる。
本稿では,活性化空間化によるMoE変換の効率化について述べる。
また,より効果的な動的k専門家選択ルールを提案する。
- 参考スコア(独自算出の注目度): 3.74142789780782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models, despite their impressive performance, often face
practical limitations due to their high computational requirements. At the same
time, such models exhibit significant activation sparsity, which can be
leveraged to reduce the inference cost by transforming parts of the network
into Mixture-of-Experts (MoE) layers. However, despite the crucial role of
activation sparsity, its impact on this process remains unexplored. In this
paper, we enhance the efficiency of MoE conversion through activation sparsity
enforcement. Moreover, motivated by the high variance in the number of
activated neurons, we propose a more effective dynamic-k expert selection rule
that adjusts the number of executed experts on a per-token basis. Finally, we
extend this approach to multi-head attention projections, which results in even
further savings. The proposed method, Sparsified Activation Dynamic-k
Mixture-of-Experts (SADMoE), outperforms existing approaches on common NLP and
vision tasks, allowing us to save up to 60% of inference cost without
significantly affecting model performance.
- Abstract(参考訳): トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。
同時に、これらのモデルは、ネットワークの一部をMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
しかしながら、活性化空間が重要な役割を担っているにもかかわらず、このプロセスに対する影響は未解明のままである。
本稿では,活性化空間化によるMoE変換の効率化について述べる。
さらに,活性化ニューロン数に高いばらつきがあることに動機づけられ,より効果的な動的k専門家選択ルールを提案する。
最後に、このアプローチをマルチヘッドアテンションプロジェクションに拡張することで、さらに節約することが可能になります。
提案手法であるSparsified Activation Dynamic-k Mixture-of-Experts (SADMoE) は、一般的なNLPおよび視覚タスクにおける既存のアプローチよりも優れており、モデル性能に大きな影響を与えずに最大60%の推論コストを節約できる。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - S$^2$-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency [5.195584743414427]
マルチエージェント・ディベート(MAD)は、大規模言語モデル(LLM)の推論能力を高めるための実行可能なアプローチとして登場した。
我々は,MAD内のトークンコストを削減するために,新しいスペーシフィケーション戦略を導入する。
このアプローチは、エージェント間の情報交換や非生産的議論の非効率を最小化し、議論プロセスの全体的な効率を向上する。
論文 参考訳(メタデータ) (2025-02-07T09:49:56Z) - Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。