論文の概要: RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2509.24897v1
- Date: Mon, 29 Sep 2025 15:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.076364
- Title: RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
- Title(参考訳): RealUnify:Unified ModelsはUnifiedから真に利益を得るか?
- Authors: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu,
- Abstract要約: 本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
- 参考スコア(独自算出の注目度): 71.3555284685426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of visual understanding and generation into unified multimodal models represents a significant stride toward general-purpose AI. However, a fundamental question remains unanswered by existing benchmarks: does this architectural unification actually enable synergetic interaction between the constituent capabilities? Existing evaluation paradigms, which primarily assess understanding and generation in isolation, are insufficient for determining whether a unified model can leverage its understanding to enhance its generation, or use generative simulation to facilitate deeper comprehension. To address this critical gap, we introduce RealUnify, a benchmark specifically designed to evaluate bidirectional capability synergy. RealUnify comprises 1,000 meticulously human-annotated instances spanning 10 categories and 32 subtasks. It is structured around two core axes: 1) Understanding Enhances Generation, which requires reasoning (e.g., commonsense, logic) to guide image generation, and 2) Generation Enhances Understanding, which necessitates mental simulation or reconstruction (e.g., of transformed or disordered visual inputs) to solve reasoning tasks. A key contribution is our dual-evaluation protocol, which combines direct end-to-end assessment with a diagnostic stepwise evaluation that decomposes tasks into distinct understanding and generation phases. This protocol allows us to precisely discern whether performance bottlenecks stem from deficiencies in core abilities or from a failure to integrate them. Through large-scale evaluations of 12 leading unified models and 6 specialized baselines, we find that current unified models still struggle to achieve effective synergy, indicating that architectural unification alone is insufficient. These results highlight the need for new training strategies and inductive biases to fully unlock the potential of unified modeling.
- Abstract(参考訳): 視覚的理解と生成を統合マルチモーダルモデルに統合することは、汎用AIへの重要な一歩である。
しかし、このアーキテクチャ統一によって、構成機能間の相乗的相互作用が実際に可能か?
既存の評価パラダイムは、主に独立して理解と生成を評価するが、統一モデルがその理解を活用して生成を強化するか、あるいはより深い理解を促進するために生成シミュレーションを使用するかを決定するには不十分である。
この重要なギャップに対処するために、双方向能力の相乗効果を評価するために特別に設計されたベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払って注釈付けされた1000のインスタンスで構成されている。
2つのコア軸を中心に構成されている。
1)画像生成の指針となる推論(例:コモンセンス、論理)を必要とするエンハンス生成の理解
2) 推論課題を解決するためには, 心的シミュレーションや再構成(例えば, 変換された視覚入力や乱れた視覚入力)が必要であること。
このプロトコルは、直接エンドツーエンドの評価と、タスクを個別の理解と生成フェーズに分解する段階的評価を組み合わせたものです。
このプロトコルにより、パフォーマンスのボトルネックがコア能力の欠陥によるものなのか、統合に失敗したものなのかを正確に判別することができます。
12の先行する統一モデルと6つの特殊ベースラインの大規模評価を通じて、現在の統一モデルはまだ効果的な相乗効果を達成するのに苦戦しており、アーキテクチャ統一だけでは不十分であることを示す。
これらの結果は、統一モデリングの可能性を完全に解き放つために、新しいトレーニング戦略と誘導バイアスの必要性を強調している。
関連論文リスト
- UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Arg-LLaDA: Argument Summarization via Large Language Diffusion Models and Sufficiency-Aware Refinement [27.673022970833163]
本稿では,要約を反復的に改善する新しい大規模言語拡散フレームワークArg-LLaDAを紹介する。
本手法では,フレキシブルマスキングコントローラと十分チェックモジュールを組み合わせることで,サポート対象,冗長,あるいは不完全なスパンを特定し,修正する。
2つのベンチマークデータセットの実証結果は、Arg-LLaDAが10の自動評価指標のうち7の最先端のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-07-25T09:07:52Z) - Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs [46.43090277452948]
MLLMの統一化は、優れた生成の理解と内部的なギャップを生じさせることを示す。
この発見は、シンプルだが効果的な内部ギャップに基づく自己改善フレームワークを提案する動機となっている。
プレトレーニングでよく知られるが,ポストトレーニングでは過小評価されている,このような自己改善の併用効果を実証的に発見する。
論文 参考訳(メタデータ) (2025-07-22T14:56:39Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - How Far Are We from Generating Missing Modalities with Foundation Models? [49.425856207329524]
欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。