論文の概要: LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
- arxiv url: http://arxiv.org/abs/2604.02097v1
- Date: Thu, 02 Apr 2026 14:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.854302
- Title: LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
- Title(参考訳): LatentUM: ラテント空間統一モデルによるインターリーブ型クロスモーダル推論の可能性
- Authors: Jiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng,
- Abstract要約: 共有セマンティック潜在空間内のすべてのモダリティを表す新しい統一モデルであるLatentUMを紹介する。
LatentUMはバイアスを大幅に軽減し、クロスモーダルアライメントを強化し、ビジュアル空間計画ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.486827808818184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.
- Abstract(参考訳): 統一モデル(UM)は、不均一なモダリティを越えてコンテンツを理解し、生成する能力を約束する。
単に視覚的コンテンツを生成することに比べ、密集した視覚的思考を必要とする問題、自己回帰による視覚的生成の改善、ステップワイドなアクション介入によって導かれる物理世界の視覚力学をモデル化するために、インターリーブ・クロスモーダル推論のためのUMの使用は、より有望で価値の高いものである。
しかし、既存のUMは、非効率かつ非効率な、理解と生成のための不結合な視覚表現のために、ブリッジとしてピクセルデコーディングを必要としている。
本稿では,視覚的理解と生成の間のピクセル空間の仲介の必要性を排除し,共有セマンティック潜在空間内のすべてのモダリティを表現する新しい統一モデルであるLatentUMを紹介する。
この設計は、柔軟にインターリーブされたクロスモーダル推論と生成を可能にする。
計算効率の改善に加えて、共有表現はコーデックバイアスを大幅に軽減し、クロスモーダルアライメントを強化し、ラテンタムはビジュアル空間計画ベンチマークで最先端のパフォーマンスを実現し、自己回帰による視覚生成の限界を押し上げ、共有セマンティックラテント空間内の将来の視覚状態を予測することで世界モデリングをサポートする。
関連論文リスト
- UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations [45.861324782424326]
現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
論文 参考訳(メタデータ) (2026-03-11T12:14:26Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。
有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。
IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文 参考訳(メタデータ) (2025-12-05T12:09:39Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。