論文の概要: Turn Waste into Worth: Rectifying Top-$k$ Router of MoE
- arxiv url: http://arxiv.org/abs/2402.12399v2
- Date: Wed, 21 Feb 2024 13:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:54:51.106000
- Title: Turn Waste into Worth: Rectifying Top-$k$ Router of MoE
- Title(参考訳): 廃棄物を価値に変える:MoEのルーターの1万ドル超の発明
- Authors: Zhiyuan Zeng, Qipeng Guo, Zhaoye Fei, Zhangyue Yin, Yunhua Zhou,
Linyang Li, Tianxiang Sun, Hang Yan, Dahua Lin, Xipeng Qiu
- Abstract要約: MoEモデルは、その計算効率のために、大きな言語モデルのトレーニングに人気がある。
一般的に使用される上位$のルーティングメカニズムは、アンバランスなルーティングのために冗長性とメモリコストに悩まされる。
ドロップトークンとパディングに対処するため,GPU内整流とFill-in整流を含む整流化を提案する。
これらの組み合わせは、バニラトップ1ルータの精度を4.7%上回る優れた性能を達成する。
- 参考スコア(独自算出の注目度): 111.12838294273033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture of Experts (MoE) models are popular for training large
language models due to their computational efficiency. However, the commonly
used top-$k$ routing mechanism suffers from redundancy computation and memory
costs due to the unbalanced routing. Some experts are overflow, where the
exceeding tokens are dropped. While some experts are vacant, which are padded
with zeros, negatively impacting model performance. To address the dropped
tokens and padding, we propose the Rectify-Router, comprising the Intra-GPU
Rectification and the Fill-in Rectification. The Intra-GPU Rectification
handles dropped tokens, efficiently routing them to experts within the GPU
where they are located to avoid inter-GPU communication. The Fill-in
Rectification addresses padding by replacing padding tokens with the tokens
that have high routing scores. Our experimental results demonstrate that the
Intra-GPU Rectification and the Fill-in Rectification effectively handle
dropped tokens and padding, respectively. Furthermore, the combination of them
achieves superior performance, surpassing the accuracy of the vanilla top-1
router by 4.7%.
- Abstract(参考訳): sparse mixed of experts (moe)モデルはその計算効率のために大きな言語モデルのトレーニングに人気がある。
しかし、一般的なトップ$kのルーティングメカニズムは、アンバランスなルーティングのために冗長性計算とメモリコストに悩まされている。
一部の専門家はオーバーフローを行い、トークンを超えるものを削除する。
一部の専門家は、ゼロでパットされている空いているが、モデルのパフォーマンスに悪影響を及ぼす。
落下したトークンとパディングに対処するため,GPU内整流とFill-in整流を含むRectify-Routerを提案する。
Intra-GPU Rectificationはドロップトークンを処理し、GPU間の通信を避けるために、GPU内のエキスパートに効率的にルーティングする。
Fill-in Rectificationは、パディングトークンを高いルーティングスコアを持つトークンに置き換えることでパディングに対処する。
実験の結果,GPU内整流法とFill-in整流法は,それぞれドロップトークンとパディングを効果的に処理できることがわかった。
さらに、これらの組み合わせはバニラトップ1ルータの精度を4.7%上回る優れた性能を実現している。
関連論文リスト
- Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [20.979790612689992]
大規模視覚言語モデル(LVLM)の研究において、Mixture-of-Experts(MoE)が注目を集めている。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。
本稿ではトークンレベルの勾配解析に基づく新しい手法,すなわち解決トークンのグラディエント・コンフリクト(STGC)を提案する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。