論文の概要: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- arxiv url: http://arxiv.org/abs/2407.21770v3
- Date: Mon, 12 Aug 2024 16:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:23:30.173573
- Title: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- Title(参考訳): MoMa: Modality-Aware Expertsを併用した効率的な早期フュージョン事前トレーニング
- Authors: Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, Armen Aghajanyan,
- Abstract要約: MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
- 参考スコア(独自算出の注目度): 95.26323548734692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa's potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems.
- Abstract(参考訳): 混合モーダル・アーリーフュージョン言語モデルの事前学習用に設計された新しいモダリティ対応ミックス・オブ・エキスパート(MoE)アーキテクチャであるMoMaを紹介する。
MoMaは、専門家モジュールをモダリティ固有のグループに分割することで、任意のシーケンスで画像とテキストを処理する。
これらのグループは、意味的にインフォメーションされた適応性を維持するために、各グループ内で学習されたルーティングを使用しながら、指定されたトークンを排他的に処理する。
実験結果から, このモーダリティ比パラメータ割り当てにより, 事前学習効率が著しく向上することがわかった。
1トリルのトレーニング予算の下では、MoMa 1.4Bモデルは4人のテキスト専門家と4人の画像専門家をフィーチャーし、FLOPの大幅な節約を実現している: 全体として3.7倍、テキストは2.6倍、画像処理は5.2倍である。
これは8つの混合モードの専門家による標準的な専門家選択MoEよりも優れており、FLOP全体の3倍の節約(テキストでは3倍、画像では2.8倍)を実現している。
MoMaとミキシング・オブ・ディープス(MoD)を組み合わせることで、FLOPの事前トレーニングは4.2倍(テキスト:3.4倍、画像:5.3倍)に改善されるが、この組み合わせはルータ精度に対する感度の向上による因果推論の性能を損なう。
これらの結果は、MoMaが混合モーダル、アーリーフュージョン言語モデルの事前トレーニングの効率を大幅に向上する可能性を示し、よりリソース効率が高く有能なマルチモーダルAIシステムへの道を開いた。
関連論文リスト
- HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Expert-Token Resonance: Redefining MoE Routing through Affinity-Driven Active Selection [16.539855450082946]
親和性駆動型アクティブセレクションによるMoEルーティングを再定義する新しいフレームワークを提案する。
理論的解析により,本手法は高いキャパシティ・バウンダリ・リダクションを実現しつつ,専門家の均質化を緩和することを示した。
微調整を監督した後、GDAD、C-Eval、TeleQnAベンチマークで9.7%から14.1%のパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters [11.05223262950967]
最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
論文 参考訳(メタデータ) (2024-02-01T18:16:04Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts [26.041404520616073]
マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
複数のスケールにまたがって、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
論文 参考訳(メタデータ) (2022-06-06T17:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。