論文の概要: Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
- arxiv url: http://arxiv.org/abs/2411.04996v1
- Date: Thu, 07 Nov 2024 18:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:57.823810
- Title: Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
- Title(参考訳): Mixture-of-Transformers:マルチモーダルファンデーションモデルのためのスパースでスケーラブルなアーキテクチャ
- Authors: Weixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin,
- Abstract要約: Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
- 参考スコア(独自算出の注目度): 111.97026994761254
- License:
- Abstract: The development of large language models (LLMs) has expanded to multi-modal systems capable of processing text, images, and speech within a unified framework. Training these models demands significantly larger datasets and computational resources compared to text-only LLMs. To address the scaling challenges, we introduce Mixture-of-Transformers (MoT), a sparse multi-modal transformer architecture that significantly reduces pretraining computational costs. MoT decouples non-embedding parameters of the model by modality -- including feed-forward networks, attention matrices, and layer normalization -- enabling modality-specific processing with global self-attention over the full input sequence. We evaluate MoT across multiple settings and model scales. In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline's performance using only 55.8\% of the FLOPs. When extended to include speech, MoT reaches speech performance comparable to the dense baseline with only 37.2\% of the FLOPs. In the Transfusion setting, where text and image are trained with different objectives, a 7B MoT model matches the image modality performance of the dense baseline with one third of the FLOPs, and a 760M MoT model outperforms a 1.4B dense baseline across key image generation metrics. System profiling further highlights MoT's practical benefits, achieving dense baseline image quality in 47.2\% of the wall-clock time and text quality in 75.6\% of the wall-clock time (measured on AWS p4de.24xlarge instances with NVIDIA A100 GPUs).
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、統一されたフレームワーク内でテキスト、画像、音声を処理できるマルチモーダルシステムに拡張されている。
これらのモデルのトレーニングには、テキストのみのLLMよりもはるかに大きなデータセットと計算資源が必要である。
スケーリングの課題に対処するために,事前学習の計算コストを大幅に削減するスパースマルチモーダルトランスアーキテクチャであるMixture-of-Transformers (MoT)を導入する。
MoTは、フィードフォワードネットワーク、アテンション行列、レイヤー正規化を含むモデルの非埋め込みパラメータをモダリティで分離し、全入力シーケンスに対してグローバルな自己アテンションを伴うモダリティ固有の処理を可能にする。
複数の設定とモデルスケールでMoTを評価する。
Chameleon 7B設定(自動回帰テキスト・画像生成)では、MoTはFLOPの55.8倍の値で密度の高いベースラインのパフォーマンスと一致している。
音声を含むように拡張されると、MoTはFLOPの37.2倍の密度のベースラインに匹敵する音声性能に達する。
テキストと画像が異なる目的でトレーニングされるTransfusionセッティングでは、7B MoTモデルが高密度ベースラインの画像モダリティのパフォーマンスをFLOPの3分の1と一致させ、760M MoTモデルはキー画像生成メトリクスで1.4B高密度ベースラインを上回ります。
システムプロファイリングはMoTの実用上の利点をさらに強調し、壁時計時間の47.2\%で高密度のベースライン画像品質、壁時計時間の75.6\%でテキスト品質を達成する(NVIDIA A100 GPUを搭載したAWS p4de.24xlargeインスタンスで測定)。
関連論文リスト
- LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture [18.459825048813336]
LongLLaVAは最初のハイブリッドMLLMであり、効率と効率のバランスが良くなった。
A100 80GBのGPUで1000近い画像を処理し、幅広いタスクに期待できるアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2024-09-04T17:25:21Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文 参考訳(メタデータ) (2024-04-03T17:34:28Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - RingMo-lite: A Remote Sensing Multi-task Lightweight Network with
CNN-Transformer Hybrid Framework [15.273362355253779]
本稿では,CNN-Transformerハイブリッドフレームワークを用いたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。
提案したRingMo-liteは、様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
論文 参考訳(メタデータ) (2023-09-16T14:15:59Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for
Speech-to-Image Generation [8.26410341981427]
音声から画像への変換の目的は、音声信号から直接写実的な画像を生成することである。
本稿では,Fusion-S2iGanと呼ばれる単一段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-17T11:12:07Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。