論文の概要: Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.25072v1
- Date: Mon, 27 Apr 2026 23:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.638149
- Title: Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models
- Title(参考訳): 正確性を超えて: 統一マルチモーダルモデルにおけるクロスタスク一貫性のベンチマーク
- Authors: Weixing Wang, Liudvikas Zekas, Anton Hackl, Constantin Alexander Auga, Parisa Shahabinejad, Jona Otholt, Antonio Rueda-Toicen, Gerard de Melo,
- Abstract要約: 統一マルチモーダルモデル(uMM)は、共有表現内で視覚的理解と視覚的生成の両方をサポートすることを目的としている。
既存の評価プロトコルは、これらの2つの機能を独立して評価し、それらが意味的に整合しているかどうかを検査しない。
XTC-Benchは,タスク間の視覚的セマンティック一貫性を計測する,シーングラフによる評価フレームワークである。
- 参考スコア(独自算出の注目度): 12.660879089125684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models (uMMs) aim to support both visual understanding and visual generation within a shared representation. However, existing evaluation protocols assess these two capabilities independently and do not examine whether they are semantically aligned. As a result, it remains unclear whether current uMMs learn coherent unified representations that remain consistent across tasks given a visual concept. We introduce XTC-Bench, a scene-graph-grounded evaluation framework that measures cross-task visual semantic consistency. By deriving both generation prompts and understanding queries from a structured scene graph, our framework enables fact-level alignment analysis across objects, attributes, and relations. We propose Continuous Cross-Task Agreement (CCTA), a fine-grained metric that quantifies semantic agreement between generation and understanding over matched atomic facts, isolating internal consistency from standalone task accuracy. Extensive experiments on eight open-source and one commercial unified models reveal that high generation or understanding performance does not imply strong cross-task alignment, and architectural analysis shows consistency is governed by how tightly learning objectives are coupled across modalities, not by architectural unification alone. XTC-Bench provides a reproducible and model-agnostic framework for diagnosing representation-level misalignment, offering a concrete direction for advancing unified multimodal modeling beyond isolated task performance.
- Abstract(参考訳): 統一マルチモーダルモデル(uMM)は、共有表現内で視覚的理解と視覚的生成の両方をサポートすることを目的としている。
しかし、既存の評価プロトコルはこれらの2つの機能を独立して評価し、それらが意味的に整合しているかどうかを検証しない。
その結果、現在のuMMが視覚的概念を与えられたタスク間で一貫性のある一貫性のある統一表現を学習するかどうかは不明である。
XTC-Benchは,タスク間の視覚的セマンティック一貫性を計測する,シーングラフによる評価フレームワークである。
構築されたシーングラフから生成プロンプトとクエリの理解の両方を導出することにより、我々のフレームワークはオブジェクト、属性、関係をまたいだファクトレベルのアライメント分析を可能にする。
本研究では,一致した原子事実の生成と理解のセマンティック・コンセンサスを定量化し,独立タスクの精度から内部整合性を分離する連続クロスタスク・アグリーメント(CCTA)を提案する。
8つのオープンソースと1つの商用統一モデルに関する大規模な実験は、ハイジェネレーションや理解のパフォーマンスが強いタスク間のアライメントを暗示していないことを示している。
XTC-Benchは、表現レベルのミスアライメントを診断するための再現可能でモデルに依存しないフレームワークを提供する。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking [154.2388970262703]
Unified Vision-Language Models (UVLM) は、単一のフレームワーク内での理解と生成の両方をサポートすることで、マルチモーダル学習を促進することを目的としている。
本稿では,解析処理と起案処理を交互に行う新たな思考パラダイムである,インターリーブド・アナライジング・ドレイティング問題解決ループ(AD-Loop)を紹介する。
テキスト思考を視覚的思考とインターリーブすることで、AD-Loopはモデルが理解と出力の両方を反復的に洗練し、真のシナジーを育むことができる。
論文 参考訳(メタデータ) (2026-02-24T23:26:09Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Are Any-to-Any Models More Consistent Across Modality Transfers Than Specialists? [14.044169097789034]
ACONは、字幕、編集命令、Q&Aペアと組み合わせた1000枚の画像からなるデータセットで、モーダル間転送を評価する。
実験の結果,任意のモデルが,ポイントワイド評価において,特定のモデルよりも一貫した相互整合性を示さないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T04:51:54Z) - Vision-Language Models Struggle to Align Entities across Modalities [13.100184125419695]
クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。
我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。
現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
論文 参考訳(メタデータ) (2025-03-05T19:36:43Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。