論文の概要: GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory
- arxiv url: http://arxiv.org/abs/2406.12375v1
- Date: Tue, 18 Jun 2024 08:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:06:22.297053
- Title: GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory
- Title(参考訳): GW-MoE:グローバルワークスペース理論によるMoEルータの不確かさの解消
- Authors: Haoze Wu, Zihan Qiu, Zili Wang, Hang Zhao, Jie Fu,
- Abstract要約: モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。
本稿では,この問題に対処する新しい微調整手法GW-MoEを提案する。
- 参考スコア(独自算出の注目度): 49.536752342048075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has been demonstrated as an efficient method to scale up models. By dynamically and sparsely selecting activated experts, MoE can effectively reduce computational costs. Despite the success, we observe that many tokens in the MoE models have uncertain routing results. These tokens have nearly equal scores for choosing each expert, and we demonstrate that this uncertainty can lead to incorrect selections. Inspired by the Global Workspace Theory (GWT), we propose a new fine-tuning method, GW-MoE, to address this issue. The core idea is to broadcast the uncertain tokens across experts during fine-tuning. Therefore, these tokens can acquire the necessary knowledge from any expert during inference and become less sensitive to the choice. GW-MoE does not introduce additional inference overhead. We validate that GW can mitigate the uncertain problem and consistently improve in different tasks (text classification, question answering, summarization, code generation, and mathematical problem solving) and model sizes (650M and 8B parameters).
- Abstract(参考訳): モデルのスケールアップに有効な方法として,Mixture-of-Experts (MoE) が実証されている。
アクティベートされたエキスパートを動的かつ疎結合に選択することで、MoEは計算コストを効果的に削減できる。
この成功にもかかわらず、MoEモデルの多くのトークンが不確実なルーティング結果を持つことが観察された。
これらのトークンは各専門家の選択にほぼ等しいスコアを持ち、この不確実性が誤った選択につながることを実証する。
GWT(Global Workspace Theory)に触発されて,この問題に対処する新しい微調整手法GW-MoEを提案する。
基本的なアイデアは、微調整中に専門家間で不確実なトークンをブロードキャストすることだ。
したがって、これらのトークンは、推論中に専門家から必要な知識を取得することができ、選択に敏感になる。
GW-MoEは追加の推論オーバーヘッドを導入しない。
我々は,GWが不確実な問題を緩和し,テキスト分類,質問応答,要約,コード生成,数学的問題解決) とモデルサイズ(650M,8B) を一貫して改善できることを検証する。
関連論文リスト
- Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [10.682263930467196]
大規模視覚言語モデル(LVLM)研究において,Mixture-of-Experts(MoE)が注目されている。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うよう促すため、ルータを使用して各トークンのルーティングを予測する。
本稿ではトークンレベルの勾配解析に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models [14.646419975663367]
我々はAdaMoEを導入し、MoEのトークン適応ルーティングを実現する。
AdaMoEは各トークンに一定数のnullエキスパートを占有させません。
パフォーマンスを向上しながら、平均的な専門家負荷(FLOP)を削減できます。
論文 参考訳(メタデータ) (2024-06-19T05:47:10Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE) パラダイムは、密度の高い層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分な専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Mixture of Tokens: Efficient LLMs through Cross-Example Aggregation [0.9618396291860722]
エキスパートの混合(MoE)モデルは、トレーニングと推論コストを維持しながら、トランスフォーマーモデルのパラメータ数を増大させる。
MoEモデルは、トレーニングの不安定性や専門家の不均一な利用といった問題を起こしやすい。
本稿では、上記の困難を回避しつつ、MoEアーキテクチャの利点を維持した完全微分可能なモデルを提案する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。