論文の概要: Mixture of Tokens: Efficient LLMs through Cross-Example Aggregation
- arxiv url: http://arxiv.org/abs/2310.15961v1
- Date: Tue, 24 Oct 2023 16:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:46:33.093702
- Title: Mixture of Tokens: Efficient LLMs through Cross-Example Aggregation
- Title(参考訳): トークンの混合:クロスサンプル凝集による効率的なLCM
- Authors: Szymon Antoniak, Sebastian Jaszczur, Micha{\l} Krutul, Maciej Pi\'oro,
Jakub Krajewski, Jan Ludziejewski, Tomasz Odrzyg\'o\'zd\'z, Marek Cygan
- Abstract要約: エキスパートの混合(MoE)モデルは、トレーニングと推論コストを維持しながら、トランスフォーマーモデルのパラメータ数を増大させる。
MoEモデルは、トレーニングの不安定性や専門家の不均一な利用といった問題を起こしやすい。
本稿では、上記の困難を回避しつつ、MoEアーキテクチャの利点を維持した完全微分可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 0.9618396291860722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promise of Mixture of Experts (MoE) models in increasing
parameter counts of Transformer models while maintaining training and inference
costs, their application carries notable drawbacks. The key strategy of these
models is to, for each processed token, activate at most a few experts -
subsets of an extensive feed-forward layer. But this approach is not without
its challenges. The operation of matching experts and tokens is discrete, which
makes MoE models prone to issues like training instability and uneven expert
utilization. Existing techniques designed to address these concerns, such as
auxiliary losses or balance-aware matching, result either in lower model
performance or are more difficult to train. In response to these issues, we
propose Mixture of Tokens, a fully-differentiable model that retains the
benefits of MoE architectures while avoiding the aforementioned difficulties.
Rather than routing tokens to experts, this approach mixes tokens from
different examples prior to feeding them to experts, enabling the model to
learn from all token-expert combinations. Importantly, this mixing can be
disabled to avoid mixing of different sequences during inference. Crucially,
this method is fully compatible with both masked and causal Large Language
Model training and inference.
- Abstract(参考訳): トレーニングや推論コストを維持しながらトランスフォーマーモデルのパラメータ数を増やすために、専門家(moe)モデルの混合が期待されているにもかかわらず、その応用には顕著な欠点がある。
これらのモデルの鍵となる戦略は、各処理されたトークンに対して、広範囲なフィードフォワード層の多くの専門家サブセットでアクティベートすることだ。
しかし、このアプローチには課題はない。
専門家とトークンの一致する操作は個別であり、トレーニングの不安定性や不均一な専門家の利用といった問題にMoEモデルは影響を受けやすい。
補助損失やバランスアウェアマッチングなど、これらの懸念に対処するために設計された既存のテクニックは、モデルパフォーマンスを低下させるか、トレーニングがより困難になる。
これらの問題に対応して,上記の困難を回避しつつ,MoEアーキテクチャの利点を保った完全微分可能なモデルであるMixture of Tokensを提案する。
トークンを専門家にルーティングする代わりに、このアプローチでは、さまざまな例からのトークンを専門家に渡す前に混合し、モデルがすべてのトークンと専門家の組み合わせから学習できるようにする。
重要なことに、この混合は推論中に異なる配列の混合を避けるために無効にすることができる。
重要な点として、この手法はマスク付きおよび因果大言語モデルトレーニングと推論の両方と完全に互換性がある。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [31.252384334117792]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。
多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
実世界でのFuseMoEの実用性は、臨床リスク予測タスクの挑戦的なセットによって検証される。
論文 参考訳(メタデータ) (2024-02-05T17:37:46Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [68.8128246362533]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Revisiting Single-gated Mixtures of Experts [13.591354795556972]
より実践的なトレーニングを可能にする単純なシングルゲートMOEを再考することを提案する。
当社の仕事の鍵は、(i) アーリーエグジットとアンサンブルな正規化スキームの両方として機能するベースモデルブランチです。
提案モデルが他の複雑なMoEに匹敵する効率と精度のトレードオフを得ることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:07:59Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。