論文の概要: Mixtral of Experts
- arxiv url: http://arxiv.org/abs/2401.04088v1
- Date: Mon, 8 Jan 2024 18:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 13:55:41.392886
- Title: Mixtral of Experts
- Title(参考訳): 専門家の混ざり合い
- Authors: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch,
Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas,
Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume
Lample, L\'elio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre
Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao,
Th\'eophile Gervet, Thibaut Lavril, Thomas Wang, Timoth\'ee Lacroix, William
El Sayed
- Abstract要約: Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。
Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。
また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B - Instructという命令に従うように微調整されたモデルも提供する。
- 参考スコア(独自算出の注目度): 57.411379935325435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model.
Mixtral has the same architecture as Mistral 7B, with the difference that each
layer is composed of 8 feedforward blocks (i.e. experts). For every token, at
each layer, a router network selects two experts to process the current state
and combine their outputs. Even though each token only sees two experts, the
selected experts can be different at each timestep. As a result, each token has
access to 47B parameters, but only uses 13B active parameters during inference.
Mixtral was trained with a context size of 32k tokens and it outperforms or
matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular,
Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and
multilingual benchmarks. We also provide a model fine-tuned to follow
instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo,
Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both
the base and instruct models are released under the Apache 2.0 license.
- Abstract(参考訳): 本研究では,SMOE(Sparse Mixture of Experts)言語モデルであるMixtral 8x7Bを紹介する。
mixtralはmistral 7bと同じアーキテクチャを持ち、各レイヤが8つのフィードフォワードブロック(すなわち専門家)で構成されている点が異なる。
各トークンについて、ルータネットワークは2人の専門家を選択して現在の状態を処理し、出力を組み合わせる。
各トークンには2人の専門家しかいないが、選択された専門家は各タイミングで異なることができる。
その結果、各トークンは47Bパラメータにアクセスできるが、推論中にアクティブパラメータは13Bしかない。
Mixtralは32kトークンのコンテキストサイズでトレーニングされ、評価されたすべてのベンチマークでLlama 2 70BとGPT-3.5を上回り、マッチする。
特にmixtralは、数学、コード生成、多言語ベンチマークにおいてllama 2 70bを大きく上回っている。
また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B - Instructという命令に従うモデルも提供する。
ベースモデルとインストラクションモデルの両方がApache 2.0ライセンスでリリースされている。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - Yuan 2.0-M32: Mixture of Experts with Attention Router [30.8849836244273]
Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示し、40Bのアクティブパラメータはわずか3.7Bである。
Yuan 2.0-M32 は MATH と ARC-Challenge のベンチマークで Llama3-70B を上回っ、それぞれ 55.89 と 95.8 である。
論文 参考訳(メタデータ) (2024-05-28T09:05:08Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models [26.447210565680116]
本稿では,DeepSeekMoEアーキテクチャを究極的専門家専門化に向けて提案する。
1) 専門家を$mN$に細分化し、そこから$mK$を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。
We show that DeepSeekMoE achieves comparable performance with GShard 2.9B。
論文 参考訳(メタデータ) (2024-01-11T17:31:42Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。
本稿では,専門家選択手法を用いた異種混合実験を提案する。
本手法は, トレーニング収束時間を2倍以上改善する。
論文 参考訳(メタデータ) (2022-02-18T17:46:11Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。