論文の概要: LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training
- arxiv url: http://arxiv.org/abs/2406.16554v1
- Date: Mon, 24 Jun 2024 11:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:04:12.038004
- Title: LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training
- Title(参考訳): LLaMA-MoE:LLaMAと連続事前学習の混合設計
- Authors: Tong Zhu, Xiaoye Qu, Daize Dong, Jiacheng Ruan, Jingqi Tong, Conghui He, Yu Cheng,
- Abstract要約: 大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
- 参考スコア(独自算出の注目度): 21.359073227913303
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) has gained increasing popularity as a promising framework for scaling up large language models (LLMs). However, training MoE from scratch in a large-scale setting still suffers from data-hungry and instability problems. Motivated by this limit, we investigate building MoE models from existing dense large language models. Specifically, based on the well-known LLaMA-2 7B model, we obtain an MoE model by: (1) Expert Construction, which partitions the parameters of original Feed-Forward Networks (FFNs) into multiple experts; (2) Continual Pre-training, which further trains the transformed MoE model and additional gate networks. In this paper, we comprehensively explore different methods for expert construction and various data sampling strategies for continual pre-training. After these stages, our LLaMA-MoE models could maintain language abilities and route the input tokens to specific experts with part of the parameters activated. Empirically, by training 200B tokens, LLaMA-MoE-3.5B models significantly outperform dense models that contain similar activation parameters. The source codes and models are available at https://github.com/pjlab-sys4nlp/llama-moe .
- Abstract(参考訳): Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールアップするための有望なフレームワークとして人気を集めている。
しかし、大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
具体的には、よく知られたLLaMA-2 7Bモデルに基づいて、(1)オリジナルのフィードフォワードネットワーク(FFN)のパラメータを複数のエキスパートに分割するエキスパート構成、(2)変換されたMoEモデルと追加ゲートネットワークをトレーニングする継続的事前学習、というMoEモデルを得る。
本稿では,専門家の育成のための様々な手法と,継続事前学習のための様々なデータサンプリング戦略を包括的に検討する。
これらの段階の後、LLaMA-MoEモデルは言語能力を維持し、パラメータの一部が活性化された特定の専門家に入力トークンをルーティングできる。
経験的に、200Bトークンをトレーニングすることで、LLaMA-MoE-3.5Bモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
ソースコードとモデルはhttps://github.com/pjlab-sys4nlp/llama-moe で公開されている。
関連論文リスト
- LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training [18.49753274534983]
Mixture-of-Experts(MoE)モデルは、アクティベートパラメータの数を一定に保ちながら、モデルサイズをスケールする上で人気が高まっている。
変換器ブロック内のMoEモジュール(すなわちMoE)とMoEモジュールの両方に対してMoEを構築することにより,高密度LLaMAモデルの疎さを徹底的に検討する。
スパシティの増大による性能劣化に対処するために,2段階のポストトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2024-11-24T04:26:04Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - $\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts [42.425214236116865]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールアップするための有望なフレームワークとして人気が高まっている。
我々は,SMoEの信頼性を3つの側面から総合的に評価する$textttMoE-RBenchを提案し,その安全性と幻覚,攻撃に対するレジリエンス,および$textit(iii)$out-of-distribution robustnessを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:17:05Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。
MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。
我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。