論文の概要: Emerging Properties in Unified Multimodal Pretraining
- arxiv url: http://arxiv.org/abs/2505.14683v1
- Date: Tue, 20 May 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.672907
- Title: Emerging Properties in Unified Multimodal Pretraining
- Title(参考訳): 統一型マルチモーダルプレトレーニングにおける創発特性
- Authors: Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan,
- Abstract要約: マルチモーダル理解と生成をサポートするオープンソース基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダ0のみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
- 参考スコア(独自算出の注目度): 32.856334401494145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/
- Abstract(参考訳): 最先端のプロプライエタリシステムでは,マルチモーダル理解と生成の統一が目覚ましい能力を示している。
本稿では,マルチモーダル理解と生成をネイティブにサポートするオープンソース基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダ0のみのモデルである。
このような多様なマルチモーダルインターリーブデータでスケールすると、BAGELは複雑なマルチモーダル推論において出現する能力を示す。
その結果、フリーフォーム画像操作、将来のフレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示しながら、マルチモーダル生成と標準ベンチマーク間の理解において、オープンソース統一モデルよりも大幅に優れていた。
マルチモーダルリサーチのさらなる機会を期待するために、重要な発見を共有し、詳細を事前学習し、データ作成のプロトカルを作成し、コードとチェックポイントをコミュニティに公開します。
プロジェクトページはhttps://bagel-ai.org/にある。
関連論文リスト
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation [27.773146599559286]
Anoleは、インターリーブ画像テキスト生成のための、オープンで自己回帰的で、ネイティブな大規模マルチモーダルモデルである。
当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
論文 参考訳(メタデータ) (2024-07-08T17:08:02Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。