論文の概要: Emu3.5: Native Multimodal Models are World Learners
- arxiv url: http://arxiv.org/abs/2510.26583v1
- Date: Thu, 30 Oct 2025 15:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.876625
- Title: Emu3.5: Native Multimodal Models are World Learners
- Title(参考訳): Emu3.5: ネイティブマルチモーダルモデルは世界学習者である
- Authors: Yufeng Cui, Honghao Chen, Haoge Deng, Xu Huang, Xinghang Li, Jirong Liu, Yang Liu, Zhuoyan Luo, Jinsheng Wang, Wenxuan Wang, Yueze Wang, Chengyuan Wang, Fan Zhang, Yingli Zhao, Ting Pan, Xianduo Li, Zecheng Hao, Wenxuan Ma, Zhuo Chen, Yulong Ao, Tiejun Huang, Zhongyuan Wang, Xinlong Wang,
- Abstract要約: Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。
Emu3.5は、視覚言語間のインターリーブデータのコーパスに基づいて、一貫した次トーケン予測目標を持つ、エンドツーエンドで事前訓練された。
それは、一貫した世界探索とオープンワールドの具体的操作を可能にする、一般化可能な世界モデリング能力を示す。
- 参考スコア(独自算出の注目度): 65.85558430499516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Emu3.5, a large-scale multimodal world model that natively predicts the next state across vision and language. Emu3.5 is pre-trained end-to-end with a unified next-token prediction objective on a corpus of vision-language interleaved data containing over 10 trillion tokens, primarily derived from sequential frames and transcripts of internet videos. The model naturally accepts interleaved vision-language inputs and generates interleaved vision-language outputs. Emu3.5 is further post-trained with large-scale reinforcement learning to enhance multimodal reasoning and generation. To improve inference efficiency, we propose Discrete Diffusion Adaptation (DiDA), which converts token-by-token decoding into bidirectional parallel prediction, accelerating per-image inference by about 20x without sacrificing performance. Emu3.5 exhibits strong native multimodal capabilities, including long-horizon vision-language generation, any-to-image (X2I) generation, and complex text-rich image generation. It also exhibits generalizable world-modeling abilities, enabling spatiotemporally consistent world exploration and open-world embodied manipulation across diverse scenarios and tasks. For comparison, Emu3.5 achieves performance comparable to Gemini 2.5 Flash Image (Nano Banana) on image generation and editing tasks and demonstrates superior results on a suite of interleaved generation tasks. We open-source Emu3.5 at https://github.com/baaivision/Emu3.5 to support community research.
- Abstract(参考訳): Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。
Emu3.5は10兆以上のトークンを含む視覚言語インターリーブデータのコーパス上に、主にインターネットビデオのシーケンシャルフレームと書き起こしから導かれる、統一された次世代の予測目標を持つ、エンドツーエンドのトレーニング済みである。
このモデルは、インターリーブされた視覚言語入力を自然に受け入れ、インターリーブされた視覚言語出力を生成する。
Emu3.5は、マルチモーダル推論と生成を強化するために、大規模強化学習でさらに訓練されている。
推論効率を向上させるために,トークン・バイ・トークン・デコーディングを双方向並列予測に変換する離散拡散適応(DiDA)を提案し,性能を犠牲にすることなく画像毎の推論を約20倍高速化する。
Emu3.5は、長距離ビジョン言語生成、X2I生成、複雑なテキストリッチな画像生成など、強力なネイティブなマルチモーダル機能を備えている。
また、一般化可能な世界モデリング能力を示し、時空間的に一貫した世界探索と、様々なシナリオやタスクにまたがるオープンワールドの具体的操作を可能にしている。
比較として、Emu3.5は画像生成および編集タスクにおけるGemini 2.5 Flash Image(Nano Banana)に匹敵するパフォーマンスを実現し、インターリーブされた生成タスクのスイートにおいて優れた結果を示す。
コミュニティリサーチをサポートするために、Emu3.5をhttps://github.com/baaivision/Emu3.5でオープンソース化しました。
関連論文リスト
- ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。
3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。
我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文 参考訳(メタデータ) (2025-06-02T16:40:50Z) - The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文 参考訳(メタデータ) (2025-03-06T16:53:14Z) - Emu3: Next-Token Prediction is All You Need [45.142268281651035]
Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。
Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。
また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
論文 参考訳(メタデータ) (2024-09-27T16:06:11Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。