論文の概要: Quantifying the Gap between Understanding and Generation within Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.02140v1
- Date: Mon, 02 Feb 2026 14:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.200002
- Title: Quantifying the Gap between Understanding and Generation within Unified Multimodal Models
- Title(参考訳): 統一マルチモーダルモデルにおける理解と生成のギャップの定量化
- Authors: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou,
- Abstract要約: GapEvalは、理解と生成能力のギャップを定量化するために設計されたベンチマークである。
実験により、幅広いUMMにわたる2つの方向の連続的なギャップが明らかになる。
以上の結果から,UMM内の知識は相容れないことが多いことが示唆された。
- 参考スコア(独自算出の注目度): 66.07644743841007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)の最近の進歩は、理解タスクと生成タスクの両方において顕著な進歩を示している。
しかし、これらの2つの機能が真に整列し、単一のモデルに統合されているかどうかは不明だ。
本稿では,理解能力と生成能力のギャップを定量化するための双方向ベンチマークであるGapEvalを紹介し,両方向の認知的コヒーレンスを定量的に測定する。
各質問は、モダリティ(画像とテキスト)の両方で回答することができ、モデルの双方向推論能力とモード間の一貫性の対称評価を可能にする。
実験により、異なるアーキテクチャを持つ幅広いUMM間の2方向間の永続的なギャップが明らかとなり、現在のモデルでは、両者の深い認知的収束よりも、表面レベルの統一しか達成できないことが示唆された。
基礎となるメカニズムをさらに探求するため,知識操作の観点から実証的研究を行い,基礎となる限界を説明する。
以上の結果から,UMM内の知識は相容れないことが多いことが示唆された。
モダリティ間の能力の出現と知識は同期せず、さらなる探索の道を開く。
関連論文リスト
- Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Independence Constrained Disentangled Representation Learning from Epistemological Perspective [13.51102815877287]
Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。
不整合表現学習の目的については合意が得られない。
本稿では,相互情報制約と独立性制約を統合した非絡み合い表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:00:59Z) - Causal Intersectionality and Dual Form of Gradient Descent for Multimodal Analysis: a Case Study on Hateful Memes [0.9120312014267044]
モデル機構が証拠に基づく意思決定に因果的影響を明らかにする方法について検討する。
この研究は、因果性とXAIに関する対話をさらに進める。
論文 参考訳(メタデータ) (2023-08-19T13:14:15Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Unsupervised Discovery, Control, and Disentanglement of Semantic
Attributes with Applications to Anomaly Detection [15.817227809141116]
画像の意味的属性を制御する潜在因子を検出する教師なし生成表現に着目する。
a)マルチスケール生成モデルと相互情報(MI)を組み合わせたネットワークアーキテクチャを提案する。
b) について、解析的結果(Lemma 1) を導出し、2つの関連する異なる概念に明瞭さをもたらす。
論文 参考訳(メタデータ) (2020-02-25T20:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。