論文の概要: Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark
- arxiv url: http://arxiv.org/abs/2510.13759v1
- Date: Wed, 15 Oct 2025 17:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.779839
- Title: Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark
- Title(参考訳): Uni-MMMU: 大規模マルチディシプリルマルチモーダル統一ベンチマーク
- Authors: Kai Zou, Ziqi Huang, Yuhao Dong, Shulin Tian, Dian Zheng, Hongbo Liu, Jingwen He, Bin Liu, Yu Qiao, Ziwei Liu,
- Abstract要約: 統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 69.8473923357969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models aim to jointly enable visual understanding and generation, yet current benchmarks rarely examine their true integration. Existing evaluations either treat the two abilities in isolation or overlook tasks that inherently couple them. To address this gap, we present Uni-MMMU, a comprehensive and discipline-aware benchmark that systematically unfolds the bidirectional synergy between generation and understanding across eight reasoning-centric domains, including science, coding, mathematics, and puzzles. Each task is bidirectionally coupled, demanding models to (i) leverage conceptual understanding to guide precise visual synthesis, or (ii) utilize generation as a cognitive scaffold for analytical reasoning. Uni-MMMU incorporates verifiable intermediate reasoning steps, unique ground truths, and a reproducible scoring protocol for both textual and visual outputs. Through extensive evaluation of state-of-the-art unified, generation-only, and understanding-only models, we reveal substantial performance disparities and cross-modal dependencies, offering new insights into when and how these abilities reinforce one another, and establishing a reliable foundation for advancing unified models.
- Abstract(参考訳): 統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
既存の評価は、分離された2つの能力を扱うか、本質的にそれらを結合するタスクを見落としているかのどちらかである。
このギャップに対処するため、Uni-MMMUは、科学、コーディング、数学、パズルを含む8つの推論中心領域において、生成と理解の間の双方向のシナジーを体系的に展開する、包括的で規律を意識したベンチマークである。
各タスクは双方向に結合され、モデルを必要とする。
一 概念的理解を活用して、正確な視覚合成を導くこと。
(二)分析的推論のための認知的足場として生成を利用する。
Uni-MMMUは、検証可能な中間推論ステップ、ユニークな基底真理、およびテキスト出力と視覚出力の両方に対する再現可能なスコアリングプロトコルを組み込んでいる。
最先端の統一モデル,世代限定モデル,理解のみモデルの広範な評価を通じて,大幅なパフォーマンス格差と相互依存を明らかにし,それらの能力が相互に強化される時期と方法に関する新たな洞察を提供し,統一モデルを進化させるための信頼性の高い基盤を確立する。
関連論文リスト
- Bridging the Gap Between Multimodal Foundation Models and World Models [10.001347956177879]
マルチモーダル・ファンデーション・モデルとワールド・モデルとのギャップを埋めるために何が必要かを検討する。
本稿では,シーングラフ,マルチモーダルコンディショニング,アライメント戦略を取り入れて生成プロセスのガイドを行う。
我々はこれらの技術を制御可能な4D生成に拡張し、時間と空間を通じてインタラクティブで編集可能、そして変形可能なオブジェクト合成を可能にする。
論文 参考訳(メタデータ) (2025-10-04T08:14:20Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。
MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。
私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文 参考訳(メタデータ) (2025-07-28T08:35:11Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。