論文の概要: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- arxiv url: http://arxiv.org/abs/2407.21770v1
- Date: Wed, 31 Jul 2024 17:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 17:31:11.885896
- Title: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- Title(参考訳): MoMa: Modality-Aware Expertsを併用した効率的な早期フュージョン事前トレーニング
- Authors: Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan,
- Abstract要約: MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
- 参考スコア(独自算出の注目度): 90.34184237432483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa's potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems.
- Abstract(参考訳): 混合モーダル・アーリーフュージョン言語モデルの事前学習用に設計された新しいモダリティ対応ミックス・オブ・エキスパート(MoE)アーキテクチャであるMoMaを紹介する。
MoMaは、専門家モジュールをモダリティ固有のグループに分割することで、任意のシーケンスで画像とテキストを処理する。
これらのグループは、意味的にインフォメーションされた適応性を維持するために、各グループ内で学習されたルーティングを使用しながら、指定されたトークンを排他的に処理する。
実験結果から, このモーダリティ比パラメータ割り当てにより, 事前学習効率が著しく向上することがわかった。
1トリルのトレーニング予算の下では、MoMa 1.4Bモデルは4人のテキスト専門家と4人の画像専門家をフィーチャーし、FLOPの大幅な節約を実現している: 全体として3.7倍、テキストは2.6倍、画像処理は5.2倍である。
これは8つの混合モードの専門家による標準的な専門家選択MoEよりも優れており、FLOP全体の3倍の節約(テキストでは3倍、画像では2.8倍)を実現している。
MoMaとミキシング・オブ・ディープス(MoD)を組み合わせることで、FLOPの事前トレーニングは4.2倍(テキスト:3.4倍、画像:5.3倍)に改善されるが、この組み合わせはルータ精度に対する感度の向上による因果推論の性能を損なう。
これらの結果は、MoMaが混合モーダル、アーリーフュージョン言語モデルの事前トレーニングの効率を大幅に向上する可能性を示し、よりリソース効率が高く有能なマルチモーダルAIシステムへの道を開いた。
関連論文リスト
- Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - LocMoE+: Enhanced Router with Token Feature Awareness for Efficient LLM Pre-Training [16.539855450082946]
我々はローオーバーヘッドのLocMoEの洗練されたバージョンであるLocMoE+を紹介する。
LocMoE+は、GDAD、C-Eval、TeleQnAデータセット全体で9.7%から14.1%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts [26.041404520616073]
マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
複数のスケールにまたがって、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
論文 参考訳(メタデータ) (2022-06-06T17:51:59Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。