論文の概要: Beyond Language Modeling: An Exploration of Multimodal Pretraining
- arxiv url: http://arxiv.org/abs/2603.03276v1
- Date: Tue, 03 Mar 2026 18:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.942562
- Title: Beyond Language Modeling: An Exploration of Multimodal Pretraining
- Title(参考訳): 言語モデリングを超えて - マルチモーダル事前学習の探索
- Authors: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie,
- Abstract要約: 我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
- 参考スコア(独自算出の注目度): 125.34714978184638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.
- Abstract(参考訳): ビジュアルワールドは、言語を超えて基礎モデルを前進させるための重要な軸を提供する。
この方向への関心は高まるが、ネイティブなマルチモーダルモデルの設計空間はいまだに不透明である。
本研究は,言語事前学習の干渉を伴わずに,複数モーダル事前学習を管理する要因を分離する,制御,ゼロスクラッチ事前学習実験を通じて経験的明瞭度を提供する。
テキスト,ビデオ,画像テキストペア,さらにはアクション条件付きビデオなど,さまざまなデータをトレーニングするために,次世代の言語予測と視覚拡散を用いたTransfusionフレームワークを採用した。
私たちの実験では4つの重要な洞察を得ました。
一 表現オートエンコーダ(RAE)は、視覚的理解と生成の両方に優れ、最適な統一された視覚表現を提供する。
(ii)ビジュアルデータと言語データは相補的であり、下流機能に相乗効果をもたらす。
三 統合マルチモーダル予習は、自然に世界モデリングに結びつき、その能力は、一般の訓練から生ずる。
(4)Mixture-of-Experts(MoE)は,モダリティの特殊化を自然に誘導しつつ,効率的かつ効果的なマルチモーダルスケーリングを実現する。
IsoFLOP分析を通じて、モーダル性の両方のスケーリング法則を計算し、スケーリング非対称性を明らかにする。
我々は,MoEアーキテクチャが,言語が要求する高モデルキャパシティを提供することによって,このスケーリング非対称性を調和させると同時に,データ集約的な視覚特性を実現し,真に統一されたマルチモーダルモデルへの道を開くことを実証した。
関連論文リスト
- Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文 参考訳(メタデータ) (2026-02-06T18:48:18Z) - Simple o3: Towards Interleaved Vision-Language Reasoning [38.46230601239066]
我々は、動的ツールインタラクションをインターリーブされた視覚言語推論に統合する、エンドツーエンドのフレームワークであるSimple o3を提案する。
提案手法は,高品質な視覚言語推論チェーンを生成するスケーラブルなデータ合成パイプラインを特徴とする。
実験の結果、Simple o3は様々なベンチマークで優れたパフォーマンスを示し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-08-16T17:15:39Z) - Aya Vision: Advancing the Frontier of Multilingual Multimodality [15.981889066681424]
高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。
また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。
我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-13T17:03:48Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MIO: A Foundation Model on Multimodal Tokens [75.45159462076937]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。