論文の概要: Context Unrolling in Omni Models
- arxiv url: http://arxiv.org/abs/2604.21921v1
- Date: Thu, 23 Apr 2026 17:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.821909
- Title: Context Unrolling in Omni Models
- Title(参考訳): オムニモデルにおけるコンテキストアンロール
- Authors: Ceyuan Yang, Zhijie Lin, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Chaorui Deng, Kunchang Li, Zihan Ding, Yuwei Guo, Fuyun Wang, Fangqi Zhu, Xiaonan Nie, Shenhan Zhu, Shanchuan Lin, Hongsheng Li, Weilin Huang, Guang Shi, Haoqi Fan,
- Abstract要約: 我々は,テキスト,画像,ビデオ,3次元幾何学,隠蔽表現など,多様なモダリティを訓練した統一型マルチモーダルモデルOmniを提案する。
このようなトレーニングは、予測を生成する前に複数のモーダル表現を対象とするコンテキストアンロールを可能にする。
- 参考スコア(独自算出の注目度): 74.990971105583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Omni, a unified multimodal model natively trained on diverse modalities, including text, images, videos, 3D geometry, and hidden representations. We find that such training enables Context Unrolling, where the model explicitly reasons across multiple modal representations before producing predictions. This process enables the model to aggregate complementary information across heterogeneous modalities, facilitating a more faithful approximation of the shared multimodal knowledge manifold and improving downstream reasoning fidelity. As a result, Omni achieves strong performance on both multimodal generation and understanding benchmarks, while demonstrating advanced multimodal reasoning capabilities, including in-context generation of text, image, video, and 3D geometry.
- Abstract(参考訳): 我々は,テキスト,画像,ビデオ,3次元幾何学,隠蔽表現など,さまざまなモダリティをネイティブに訓練した統一マルチモーダルモデルOmniを提案する。
このようなトレーニングは、予測を生成する前に複数のモーダル表現を対象とするコンテキストアンロールを可能にする。
このプロセスにより、モデルは異質なモダリティにまたがる相補的な情報を集約し、共有マルチモーダル知識多様体をより忠実に近似し、下流の推論忠実性を改善することができる。
その結果、Omniはマルチモーダル生成と理解ベンチマークの両方で強力な性能を発揮し、テキスト、画像、ビデオ、および3次元幾何学のテキスト内生成を含む高度なマルチモーダル推論能力を実証した。
関連論文リスト
- ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology [19.17623860216468]
ProM3Eは、エコロジーのためのあらゆる世代のマルチモーダル表現のためのマスク付きマルチモーダル埋め込みモデルである。
設計により、我々のモデルは埋め込み空間におけるモダリティ反転をサポートする。
モーダル間類似点とモーダル間類似点を混合して,全ての検索タスクにおいて優れた性能を実現する,新たなクロスモーダル検索手法を提案する。
論文 参考訳(メタデータ) (2025-11-04T19:47:22Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Explaining latent representations of generative models with large multimodal models [5.9908087713968925]
データ生成潜在因子の解釈可能な表現を学習することは、人工知能の発展にとって重要なトピックである。
大規模マルチモーダルモデルを用いた生成モデルにおいて,各潜伏変数を包括的に記述するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T19:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。