論文の概要: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2605.04128v1
- Date: Tue, 05 May 2026 15:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.45464
- Title: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
- Title(参考訳): 統合マルチモーダル理解・生成における空間的知能の覚醒
- Authors: Lin Song, Wenbo Li, Guoqing Ma, Wei Tang, Bo Wang, Yuan Zhang, Yijun Yang, Yicheng Xiao, Jianhui Liu, Yanbing Zhang, Guohui Zhang, Wenhu Zhang, Hang Xu, Nan Jiang, Xin Han, Haoze Sun, Maoquan Zhang, Haoyang Huang, Nan Duan,
- Abstract要約: 視覚理解,テキスト・ツー・イメージ生成,指導誘導画像編集のための統合マルチモーダル基盤モデルであるJoyAI-Imageを提案する。
我々は,一貫した命令チューニング,長文レンダリングの監督,空間的接地データ,一般および空間的編集信号を組み合わせたスケーラブルなトレーニングレシピを構築した。
JoyAI-Imageは、理解、生成、長文レンダリング、および編集ベンチマークにまたがる実験により、最先端または競争力の高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 68.03746493619285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present JoyAI-Image, a unified multimodal foundation model for visual understanding, text-to-image generation, and instruction-guided image editing. JoyAI-Image couples a spatially enhanced Multimodal Large Language Model (MLLM) with a Multimodal Diffusion Transformer (MMDiT), allowing perception and generation to interact through a shared multimodal interface. Around this architecture, we build a scalable training recipe that combines unified instruction tuning, long-text rendering supervision, spatially grounded data, and both general and spatial editing signals. This design gives the model broad multimodal capability while strengthening geometry-aware reasoning and controllable visual synthesis. Experiments across understanding, generation, long-text rendering, and editing benchmarks show that JoyAI-Image achieves state-of-the-art or highly competitive performance. More importantly, the bidirectional loop between enhanced understanding, controllable spatial editing, and novel-view-assisted reasoning enables the model to move beyond general visual competence toward stronger spatial intelligence. These results suggest a promising path for unified visual models in downstream applications such as vision-language-action systems and world models.
- Abstract(参考訳): 視覚理解,テキスト・ツー・イメージ生成,指導誘導画像編集のための統合マルチモーダル基盤モデルであるJoyAI-Imageを提案する。
JoyAI-Imageは、空間的に拡張されたMultimodal Large Language Model (MLLM)とMultimodal Diffusion Transformer (MMDiT)を結合し、認識と生成を共有マルチモーダルインタフェースを介して対話できるようにする。
このアーキテクチャの周辺では、一貫した命令チューニング、長文レンダリングの監督、空間的接地データ、および一般および空間的編集信号を組み合わせたスケーラブルなトレーニングレシピを構築している。
この設計は、幾何認識推論と制御可能な視覚合成を強化しつつ、モデルに広いマルチモーダル能力を与える。
JoyAI-Imageは、理解、生成、長文レンダリング、および編集ベンチマークにまたがる実験により、最先端または競争力の高いパフォーマンスを実現している。
さらに重要なことは、強化された理解、制御可能な空間編集、および新規ビュー支援推論の間の双方向ループにより、モデルがより強力な空間知性に向かって一般的な視覚能力を超えることができることである。
これらの結果は、視覚-言語-アクションシステムや世界モデルのような下流アプリケーションにおいて、統一された視覚モデルにとって有望な経路であることを示唆している。
関連論文リスト
- Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。
3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文 参考訳(メタデータ) (2025-06-18T15:39:15Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。