論文の概要: RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2509.24897v1
- Date: Mon, 29 Sep 2025 15:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.076364
- Title: RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
- Title(参考訳): RealUnify:Unified ModelsはUnifiedから真に利益を得るか?
- Authors: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu,
- Abstract要約: 本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
- 参考スコア(独自算出の注目度): 71.3555284685426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of visual understanding and generation into unified multimodal models represents a significant stride toward general-purpose AI. However, a fundamental question remains unanswered by existing benchmarks: does this architectural unification actually enable synergetic interaction between the constituent capabilities? Existing evaluation paradigms, which primarily assess understanding and generation in isolation, are insufficient for determining whether a unified model can leverage its understanding to enhance its generation, or use generative simulation to facilitate deeper comprehension. To address this critical gap, we introduce RealUnify, a benchmark specifically designed to evaluate bidirectional capability synergy. RealUnify comprises 1,000 meticulously human-annotated instances spanning 10 categories and 32 subtasks. It is structured around two core axes: 1) Understanding Enhances Generation, which requires reasoning (e.g., commonsense, logic) to guide image generation, and 2) Generation Enhances Understanding, which necessitates mental simulation or reconstruction (e.g., of transformed or disordered visual inputs) to solve reasoning tasks. A key contribution is our dual-evaluation protocol, which combines direct end-to-end assessment with a diagnostic stepwise evaluation that decomposes tasks into distinct understanding and generation phases. This protocol allows us to precisely discern whether performance bottlenecks stem from deficiencies in core abilities or from a failure to integrate them. Through large-scale evaluations of 12 leading unified models and 6 specialized baselines, we find that current unified models still struggle to achieve effective synergy, indicating that architectural unification alone is insufficient. These results highlight the need for new training strategies and inductive biases to fully unlock the potential of unified modeling.
- Abstract(参考訳): 視覚的理解と生成を統合マルチモーダルモデルに統合することは、汎用AIへの重要な一歩である。
しかし、このアーキテクチャ統一によって、構成機能間の相乗的相互作用が実際に可能か?
既存の評価パラダイムは、主に独立して理解と生成を評価するが、統一モデルがその理解を活用して生成を強化するか、あるいはより深い理解を促進するために生成シミュレーションを使用するかを決定するには不十分である。
この重要なギャップに対処するために、双方向能力の相乗効果を評価するために特別に設計されたベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払って注釈付けされた1000のインスタンスで構成されている。
2つのコア軸を中心に構成されている。
1)画像生成の指針となる推論(例:コモンセンス、論理)を必要とするエンハンス生成の理解
2) 推論課題を解決するためには, 心的シミュレーションや再構成(例えば, 変換された視覚入力や乱れた視覚入力)が必要であること。
このプロトコルは、直接エンドツーエンドの評価と、タスクを個別の理解と生成フェーズに分解する段階的評価を組み合わせたものです。
このプロトコルにより、パフォーマンスのボトルネックがコア能力の欠陥によるものなのか、統合に失敗したものなのかを正確に判別することができます。
12の先行する統一モデルと6つの特殊ベースラインの大規模評価を通じて、現在の統一モデルはまだ効果的な相乗効果を達成するのに苦戦しており、アーキテクチャ統一だけでは不十分であることを示す。
これらの結果は、統一モデリングの可能性を完全に解き放つために、新しいトレーニング戦略と誘導バイアスの必要性を強調している。
関連論文リスト
- Arg-LLaDA: Argument Summarization via Large Language Diffusion Models and Sufficiency-Aware Refinement [27.673022970833163]
本稿では,要約を反復的に改善する新しい大規模言語拡散フレームワークArg-LLaDAを紹介する。
本手法では,フレキシブルマスキングコントローラと十分チェックモジュールを組み合わせることで,サポート対象,冗長,あるいは不完全なスパンを特定し,修正する。
2つのベンチマークデータセットの実証結果は、Arg-LLaDAが10の自動評価指標のうち7の最先端のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-07-25T09:07:52Z) - Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs [46.43090277452948]
MLLMの統一化は、優れた生成の理解と内部的なギャップを生じさせることを示す。
この発見は、シンプルだが効果的な内部ギャップに基づく自己改善フレームワークを提案する動機となっている。
プレトレーニングでよく知られるが,ポストトレーニングでは過小評価されている,このような自己改善の併用効果を実証的に発見する。
論文 参考訳(メタデータ) (2025-07-22T14:56:39Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - How Far Are We from Generating Missing Modalities with Foundation Models? [49.425856207329524]
欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。