論文の概要: Free Lunch for Unified Multimodal Models: Enhancing Generation via Reflective Rectification with Inherent Understanding
- arxiv url: http://arxiv.org/abs/2604.13540v1
- Date: Wed, 15 Apr 2026 06:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.417891
- Title: Free Lunch for Unified Multimodal Models: Enhancing Generation via Reflective Rectification with Inherent Understanding
- Title(参考訳): 統一型マルチモーダルモデルのためのフリーランチ:本質的理解による反射整流による生成の促進
- Authors: Yibo Jiang, Tao Wu, Rui Jiang, Yehao Lu, Chaoxiang Cai, Zequn Qin, Xi Li,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一の構造に統合することを目的としている。
UMMは、その理解能力が世代を著しく上回る、顕著な能力ミスマッチを示す。
そこで我々は,UniRect-CoT(UniRect-CoT)を提案する。
- 参考スコア(独自算出の注目度): 20.397510070808238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) aim to integrate visual understanding and generation within a single structure. However, these models exhibit a notable capability mismatch, where their understanding capability significantly outperforms their generation. This mismatch indicates that the model's rich internal knowledge, while effective for understanding tasks, remains underactivated during generation. To address this, we draw inspiration from the human ``Thinking-While-Drawing'' paradigm, where humans continuously reflect to activate their knowledge and rectify intermediate results. In this paper, we propose UniRect-CoT, a training-free unified rectification chain-of-thought framework. Our approach unlocks the ``free lunch'' hidden in the UMM's powerful inherent understanding to continuously reflect, activating its internal knowledge and rectifying intermediate results during generation.We regard the diffusion denoising process in UMMs as an intrinsic visual reasoning process and align the intermediate results with the target instruction understood by the model, serving as a self-supervisory signal to rectify UMM generation.Extensive experiments demonstrate that UniRect-CoT can be easily integrated into existing UMMs, significantly enhancing generation quality across diverse complex tasks.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、視覚的理解と生成を単一の構造に統合することを目的としている。
しかしながら、これらのモデルは、その理解能力が世代を著しく上回る、顕著な能力ミスマッチを示す。
このミスマッチは、モデルの豊富な内部知識が、タスクを理解するのに有効であるが、世代間も不活性化されていることを示している。
そこで我々は,人間の「シンキング・ワイル・ドライイング」パラダイムからインスピレーションを得て,人間が継続的に反射して知識を活性化し,中間結果の修正を行う。
本稿では,UniRect-CoTを提案する。
提案手法は,UMMに隠された「フリーランチ」を連続的に反映し,内部知識を活性化し,生成中の中間結果を補正するものである。我々は,UMMの拡散復調過程を内在的な視覚的推論プロセスとみなし,その中間結果をモデルによって理解された目標命令と整合させ,自己監督信号として機能し,UMM生成を是正するものであり,UniRect-CoTが既存のUMMに容易に統合でき,多様な複雑なタスクにおける生成品質を大幅に向上させることができることを実証する。
関連論文リスト
- LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model [47.486827808818184]
共有セマンティック潜在空間内のすべてのモダリティを表す新しい統一モデルであるLatentUMを紹介する。
LatentUMはバイアスを大幅に軽減し、クロスモーダルアライメントを強化し、ビジュアル空間計画ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-02T14:22:29Z) - Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models [98.8608163448532]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の統合において顕著な進歩を遂げた。
本稿では,UMMを教師と学生として同時に機能させる,トークンレベルの固有テキスト画像アライメント報酬機構GvUを提案する。
提案手法により,UMMの生成が大幅に向上し,視覚的理解の微粒化が促進されることを示す。
論文 参考訳(メタデータ) (2026-03-06T08:56:14Z) - Quantifying the Gap between Understanding and Generation within Unified Multimodal Models [66.07644743841007]
GapEvalは、理解と生成能力のギャップを定量化するために設計されたベンチマークである。
実験により、幅広いUMMにわたる2つの方向の連続的なギャップが明らかになる。
以上の結果から,UMM内の知識は相容れないことが多いことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T14:19:37Z) - Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation [53.18286807225952]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
論文 参考訳(メタデータ) (2026-01-29T08:42:25Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。