論文の概要: Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?
- arxiv url: http://arxiv.org/abs/2602.23711v1
- Date: Fri, 27 Feb 2026 06:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.276952
- Title: Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?
- Title(参考訳): 出力モダリティの異なるセマンティック等価性を維持する統一生成モデルと理解モデル
- Authors: Hongbo Jiang, Jie Li, Yunhang Shen, Pingyang Dai, Xing Sun, Haoyu Cao, Liujuan Cao,
- Abstract要約: Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
- 参考スコア(独自算出の注目度): 61.533560295383786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Large Language Models (U-MLLMs) integrate understanding and generation within a single architecture. However, existing evaluations typically assess these capabilities separately, overlooking semantic equivalence, i.e., the ability to manifest consistent reasoning results regardless of the output modality. In this work, we investigate whether current U-MLLMs satisfy this premise. We observe that while models demonstrate robust textual reasoning, they fail to maintain semantic equivalence when required to render the same results in the image modality. To rigorously diagnose this discrepancy, we introduce VGUBench, a framework to decouple reasoning logic from generation fidelity. VGUBench comprises three diagnostic tasks: (1)Textual Generative Understanding, establishing a baseline for reasoning accuracy in textual response; (2)Visual Generative Understanding, evaluating the ability to generate visual responses that represent the correct answer; and (3)a Visual Rendering control task, which assesses the ability to directly render explicit visual descriptions into images without complex reasoning. Our evaluation reveals a significant disparity: despite strong performance in textual understanding and visual rendering, U-MLLMs exhibit a marked performance collapse when required to generate visual answers to questions. Furthermore, we find a negligible correlation between visual answering performance and basic rendering quality. These results suggest that the failure stems not from insufficient generation fidelity, but from a breakdown in cross-modal semantic alignment. We provide diagnostic insights to address this challenge in future Unified Generation and Understanding Models.
- Abstract(参考訳): Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
しかし、既存の評価は、通常、意味的同値性、すなわち出力のモダリティに関係なく一貫性のある推論結果を示す能力を見越して、これらの能力を個別に評価する。
本研究では,現在のU-MLLMがこの前提を満たすかどうかを検討する。
我々は、モデルが頑健なテキスト推論を示す一方で、画像のモダリティにおいて同じ結果をレンダリングする必要がある場合、意味的等価性を維持することができないことを観察した。
この相違を厳密に診断するために、推論論理を生成忠実性から分離するフレームワークであるVGUBenchを導入する。
VGUBenchは,(1)テキスト生成理解,(2)視覚生成理解,(2)正しい回答を表す視覚応答を生成する能力の評価,(3)視覚レンダリング制御,(3)複雑な推論を伴わずに画像に明示的な視覚的記述を直接描画する能力の評価,の3つの診断タスクから構成される。
U-MLLMは, テキスト理解と視覚的レンダリングにおいて高い性能を示したが, 質問に対する視覚的回答の生成に必要な場合, 顕著な性能低下を示した。
さらに,視覚応答性能と基本的なレンダリング品質との間には無視できる相関関係が認められた。
これらの結果から, 失敗の原因は生成の不完全性ではなく, モーダル間のセマンティックアライメントの崩壊によるものであることが示唆された。
今後の統一生成・理解モデルにおいて,この課題に対処するための診断的洞察を提供する。
関連論文リスト
- Seeing Through Words: Controlling Visual Retrieval Quality with Language Models [68.49490036960559]
本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。
我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。
提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
論文 参考訳(メタデータ) (2026-02-24T18:20:57Z) - AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs [2.357397994148727]
マルチモーダル大言語モデル (MLLM) と画像生成モデル (IGM) について検討した。
我々は、画像からテキストまでのタスクとテキストから画像までのタスクの障害モードを比較するための新しいベンチマークを作成しました。
この結果から,障害モードはモデルとモダリティの間で共有されることが多いが,特定の障害はモデル固有かつモダリティ固有であることがわかった。
論文 参考訳(メタデータ) (2026-01-20T00:06:58Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。