論文の概要: UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
- arxiv url: http://arxiv.org/abs/2603.03241v1
- Date: Tue, 03 Mar 2026 18:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.930882
- Title: UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
- Title(参考訳): UniG2U-Bench: 統一モデルはマルチモーダル理解を促進するか?
- Authors: Zimo Wen, Boxiu Li, Wanbo Zhang, Junxiang Lei, Xiaoyu Chen, Yijia Fan, Qi Zhang, Yujiang Wang, Lili Qiu, Bo Li, Ziwei Liu, Caihua Shan, Yifan Yang, Yifei Shen,
- Abstract要約: 統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
- 参考スコア(独自算出の注目度): 50.92401586025528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.
- Abstract(参考訳): 統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
既存のベンチマークでは、生成が理解しやすい特定のタスクの体系的な探索が欠けている。
この目的のために、UniG2U-Benchは、G2U(Generation-to-understanding)評価を7つのレジームと30のサブタスクに分類する包括的なベンチマークである。
30モデル以上の広範囲な評価の結果、3つの中核的な発見が判明した。
1) 統一モデルは、一般的に、そのベースとなるビジョン・ランゲージ・モデル(VLM)を過小評価し、ジェネレーション・then-Answer(GtA)推論は、直接推論と比較してパフォーマンスを低下させる。
2)空間的インテリジェンス,視覚的錯覚,多ラウンド推論サブタスクにおいて,空間的および形状的知覚の強化,多段階中間画像状態の強化が有効であることが証明された。
3)類似の推論構造とモデル共有アーキテクチャを持つタスクは相関した振る舞いを示し,生成に基づく結合は,タスクや事前学習データ,モデルアーキテクチャに対するクラス一貫性の帰納的バイアスを引き起こすことを示唆している。
これらの知見は、統一マルチモーダルモデリングの可能性を完全に解き放つために、より多様なトレーニングデータや新しいパラダイムの必要性を浮き彫りにしている。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - Generative Universal Verifier as Multimodal Meta-Reasoner [71.34250480838473]
Generative Universal Verifierは、視覚言語モデルと統合マルチモーダルモデルにおける次世代マルチモーダル推論のために設計された新しい概念とプラグインである。
ViVerBenchは、マルチモーダル推論における視覚的結果を評価するために、16のカテゴリにまたがる重要なタスクのベンチマークである。
OmniVerifier-7Bは、ユニバーサルビジュアル検証のために訓練された最初のオムニ対応生成検証器である。
論文 参考訳(メタデータ) (2025-10-15T17:59:24Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - GIR-Bench: Versatile Benchmark for Generating Images with Reasoning [40.09327641816171]
統一マルチモーダルモデルは、画像理解と生成の両方で大きな言語モデルの推論能力を統合する。
textbfGIR-Benchは3つの相補的な視点で統一されたモデルを評価する包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-13T05:50:44Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Multiscale Generative Models: Improving Performance of a Generative
Model Using Feedback from Other Dependent Generative Models [10.053377705165786]
実世界の相互作用を反映した相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。
我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。
本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。