論文の概要: Mixture of Tokens: Efficient LLMs through Cross-Example Aggregation
- arxiv url: http://arxiv.org/abs/2310.15961v1
- Date: Tue, 24 Oct 2023 16:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:46:33.093702
- Title: Mixture of Tokens: Efficient LLMs through Cross-Example Aggregation
- Title(参考訳): トークンの混合:クロスサンプル凝集による効率的なLCM
- Authors: Szymon Antoniak, Sebastian Jaszczur, Micha{\l} Krutul, Maciej Pi\'oro,
Jakub Krajewski, Jan Ludziejewski, Tomasz Odrzyg\'o\'zd\'z, Marek Cygan
- Abstract要約: エキスパートの混合(MoE)モデルは、トレーニングと推論コストを維持しながら、トランスフォーマーモデルのパラメータ数を増大させる。
MoEモデルは、トレーニングの不安定性や専門家の不均一な利用といった問題を起こしやすい。
本稿では、上記の困難を回避しつつ、MoEアーキテクチャの利点を維持した完全微分可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 0.9618396291860722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promise of Mixture of Experts (MoE) models in increasing
parameter counts of Transformer models while maintaining training and inference
costs, their application carries notable drawbacks. The key strategy of these
models is to, for each processed token, activate at most a few experts -
subsets of an extensive feed-forward layer. But this approach is not without
its challenges. The operation of matching experts and tokens is discrete, which
makes MoE models prone to issues like training instability and uneven expert
utilization. Existing techniques designed to address these concerns, such as
auxiliary losses or balance-aware matching, result either in lower model
performance or are more difficult to train. In response to these issues, we
propose Mixture of Tokens, a fully-differentiable model that retains the
benefits of MoE architectures while avoiding the aforementioned difficulties.
Rather than routing tokens to experts, this approach mixes tokens from
different examples prior to feeding them to experts, enabling the model to
learn from all token-expert combinations. Importantly, this mixing can be
disabled to avoid mixing of different sequences during inference. Crucially,
this method is fully compatible with both masked and causal Large Language
Model training and inference.
- Abstract(参考訳): トレーニングや推論コストを維持しながらトランスフォーマーモデルのパラメータ数を増やすために、専門家(moe)モデルの混合が期待されているにもかかわらず、その応用には顕著な欠点がある。
これらのモデルの鍵となる戦略は、各処理されたトークンに対して、広範囲なフィードフォワード層の多くの専門家サブセットでアクティベートすることだ。
しかし、このアプローチには課題はない。
専門家とトークンの一致する操作は個別であり、トレーニングの不安定性や不均一な専門家の利用といった問題にMoEモデルは影響を受けやすい。
補助損失やバランスアウェアマッチングなど、これらの懸念に対処するために設計された既存のテクニックは、モデルパフォーマンスを低下させるか、トレーニングがより困難になる。
これらの問題に対応して,上記の困難を回避しつつ,MoEアーキテクチャの利点を保った完全微分可能なモデルであるMixture of Tokensを提案する。
トークンを専門家にルーティングする代わりに、このアプローチでは、さまざまな例からのトークンを専門家に渡す前に混合し、モデルがすべてのトークンと専門家の組み合わせから学習できるようにする。
重要なことに、この混合は推論中に異なる配列の混合を避けるために無効にすることができる。
重要な点として、この手法はマスク付きおよび因果大言語モデルトレーニングと推論の両方と完全に互換性がある。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training [21.359073227913303]
大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
論文 参考訳(メタデータ) (2024-06-24T11:43:07Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文 参考訳(メタデータ) (2023-10-17T01:02:32Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。