論文の概要: Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation
- arxiv url: http://arxiv.org/abs/2601.21406v1
- Date: Thu, 29 Jan 2026 08:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.675479
- Title: Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation
- Title(参考訳): 多表現生成による統一型マルチモーダルモデルの理解の促進
- Authors: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
- 参考スコア(独自算出の注目度): 53.18286807225952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
彼らの究極の願望は、理解と生成が相互に強化されるサイクルを作ることである。
近年のポストトレーニング手法は, 理解を有効活用して生成を向上しているが, 理解を向上させるために生成を利用する逆方向は, ほとんど未解明のままである。
本研究では,UniMRG(Uniified Multi-Representation Generation)を提案する。
UniMRGは、補助生成タスクを組み込むことで、UMMの理解能力を高める。
具体的には,入力画像の複数の固有表現,すなわち画素(再構成),深さ(幾何),分割(構造)を生成するためにUMMを訓練する。
これらの多様な表現を合成することにより、UMMは外観、空間的関係、構造的レイアウトに関する相補的な情報をキャプチャする。
その結果、UMMは視覚入力をより深く、より包括的に理解する。
多様なUMMアーキテクチャを対象とした大規模な実験により,本手法は特に微粒化知覚を増強し,幻覚を低減し,空間的理解を向上し,同時に生成能力を向上することを示した。
関連論文リスト
- TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models [96.41974190202642]
統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
論文 参考訳(メタデータ) (2025-12-01T18:59:51Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Bridging the Gap Between Multimodal Foundation Models and World Models [10.001347956177879]
マルチモーダル・ファンデーション・モデルとワールド・モデルとのギャップを埋めるために何が必要かを検討する。
本稿では,シーングラフ,マルチモーダルコンディショニング,アライメント戦略を取り入れて生成プロセスのガイドを行う。
我々はこれらの技術を制御可能な4D生成に拡張し、時間と空間を通じてインタラクティブで編集可能、そして変形可能なオブジェクト合成を可能にする。
論文 参考訳(メタデータ) (2025-10-04T08:14:20Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation [8.021435739965982]
マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-14T09:52:51Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。