論文の概要: Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.15792v1
- Date: Fri, 15 May 2026 09:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.242789
- Title: Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models
- Title(参考訳): 流れを逆転する:大規模マルチモーダルモデルにおける世代間相乗効果
- Authors: Yujun Tong, Dongliang Chang, Zijin Yin, Xintong Liu, Yuanchen Fang, Zhanyu Ma,
- Abstract要約: 本稿では、視覚生成が明示的な中間的推論ステップとなるG2Uシナジーを提案する。
本フレームワークは,詳細な拡張やコンテキスト拡張,構造的視覚化といった,制御された生成行為をモデルで実行し,自己生成的な視覚的思考を創出することを可能にする。
生成的忠実度は知覚的利得を束縛し、編集の異なる家族が転送効率を左右することを示す。
この研究は、統一認知における欠落するメカニズムを明らかにし、想像力は理解の終わりではなく、その始まりであることを示唆している。
- 参考スコア(独自算出の注目度): 34.560908829375585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-standing goal of multimodal AI is to build unified models in which visual understanding and visual generation mutually enhance one another. Despite recent works such as BAGEL, BLIP3o achieves remarkable progress; In practice, however, this unification remains one-directional: understanding routinely guides generation, yet how and why generation can support understanding is rarely investigated. We revisit this asymmetry and propose Generation-to-Understanding (G2U) synergy, where visual generation becomes an explicit intermediate reasoning step. Our framework enables a model to perform controlled generative acts, such as detail enhancement, context expansion or structural visualisation, to produce self-generated visual thoughts, which are then fed back into the model to refine perception without retraining or external tools. Through a comprehensive evaluation on twelve benchmarks, this reversed information flow consistently improves multimodal understanding. We show that generative fidelity bounds perceptual gain and that distinct families of edit prompts govern transfer efficiency. We further analyse whether models can decide what to imagine. While they can produce plausible edits, these self-generated visual thoughts lack stable task alignment, revealing that current large multimodal models fall short of true self-reflection. This work exposes a missing mechanism in unified cognition and suggests that imagination is not the end of understanding but its beginning.
- Abstract(参考訳): マルチモーダルAIの長年の目標は、視覚的理解と視覚的生成が相互に強化される統一モデルを構築することである。
BAGELのような最近の研究にもかかわらず、BLIP3oは目覚ましい進歩を遂げている。しかし、実際には、この統合は、日常的な理解が生成をガイドする一方、なぜ生成が理解を支援することができるのかは、ほとんど調査されない。
我々はこの非対称性を再検討し、視覚生成が明示的な中間推論ステップとなるG2U(Generation-to-Understanding)シナジーを提案する。
筆者らの枠組みは, 詳細な拡張, 文脈拡張, 構造的視覚化など, モデルが制御された生成行動を実行し, 自己生成された視覚的思考を生成し, モデルにフィードバックし, 再学習や外部ツールを使わずに知覚を洗練させる。
12のベンチマークで包括的な評価を行うことで、この逆情報フローはマルチモーダル理解を継続的に改善する。
生成的忠実度は知覚的利得を束縛し、編集の異なる家族が転送効率を左右することを示す。
さらに、モデルが何を想像すべきかを判断できるかどうかを分析します。
彼らはもっともらしい編集をすることができるが、これらの自己生成的な視覚的思考は安定したタスクアライメントを欠き、現在の大きなマルチモーダルモデルは真の自己回帰に欠けることを明らかにした。
この研究は、統一認知における欠落するメカニズムを明らかにし、想像力は理解の終わりではなく、その始まりであることを示唆している。
関連論文リスト
- Steering Visual Generation in Unified Multimodal Models with Understanding Supervision [42.765106450407814]
統一マルチモーダルモデルは、理解と生成のギャップを埋めるために考えられている。
本稿では, 個別のタスクとしてだけでなく, 生成表現を制御するための直接監督信号として, より軽量なフレームワークである「理解指向ポストトレーニング(UNO)」を提案する。
論文 参考訳(メタデータ) (2026-05-07T07:20:04Z) - Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling [183.5907213030813]
我々は、この分野は外観合成を超えて知的視覚生成へと進むべきであると論じている。
本稿では, 原子生成, 条件生成, インコンテキスト生成, エージェント生成, 世界モデル生成という5段階の分類法を紹介する。
我々は、フローマッチング、統合された理解・生成モデル、視覚表現の改善、後トレーニング、報酬モデリング、データキュレーション、サンプリングアクセラレーションなど、主要な技術ドライバを解析する。
論文 参考訳(メタデータ) (2026-04-30T17:59:02Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking [154.2388970262703]
Unified Vision-Language Models (UVLM) は、単一のフレームワーク内での理解と生成の両方をサポートすることで、マルチモーダル学習を促進することを目的としている。
本稿では,解析処理と起案処理を交互に行う新たな思考パラダイムである,インターリーブド・アナライジング・ドレイティング問題解決ループ(AD-Loop)を紹介する。
テキスト思考を視覚的思考とインターリーブすることで、AD-Loopはモデルが理解と出力の両方を反復的に洗練し、真のシナジーを育むことができる。
論文 参考訳(メタデータ) (2026-02-24T23:26:09Z) - MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation [47.97278965762397]
我々は、生成を動的で知識駆動のワークフローに変換する統合エージェントフレームワークであるMind-Brushを紹介します。
人間のような「思考-研究-創造」パラダイムをシミュレートして、Mind-Brushは、分配の概念を根絶するために、マルチモーダルなエビデンスを積極的に回収する。
大規模な実験により、Mind-Brushは統一モデルの能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-02-02T07:42:13Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。