論文の概要: Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.10949v1
- Date: Mon, 13 Apr 2026 03:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.294908
- Title: Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
- Title(参考訳): Pseudo-Unified: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models
- Authors: Songlin Yang, Xianghao Kong, Anyi Rao,
- Abstract要約: 統一モデル(UMM)は、大型言語モデル(LLM)の推論能力と視覚モデルの生成能力を組み合わせた設計である。
UMMはLLMライクな推論を画像合成に転送できず、発散反応の挙動を示す。
本稿では,UMMが入力をエンコードして出力を生成する方法を共同で分析する情報理論探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.752290343546754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unified multimodal models (UMMs) were designed to combine the reasoning ability of large language models (LLMs) with the generation capability of vision models. In practice, however, this synergy remains elusive: UMMs fail to transfer LLM-like reasoning to image synthesis and exhibit divergent response behaviors. We term this phenomenon pseudo-unification. Diagnosing its internal causes is important, but existing probing methods either lack model-internal insight or ignore prompt-response dependencies. To address these limitations, we propose an information-theoretic probing framework that jointly analyzes how UMMs encode inputs and generate outputs. Applied to ten representative UMMs, our framework reveals that pseudo-unification stems from a dual divergence: (i) Modality-Asymmetric Encoding, where vision and language follow different entropy trajectories, and (ii) Pattern-Split Response, where text generation exhibits high-entropy creativity while image synthesis enforces low-entropy fidelity. Only models that unify both sides (e.g., via contextual prediction) achieve more genuine unification, enabling stronger reasoning-based text-to-image generation even with fewer parameters. Our work provides the first model-internal probing of unification, demonstrating that real multimodal synergy requires consistency in information flow, not just shared parameters.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、大規模言語モデル(LLM)の推論能力と視覚モデルの生成能力を組み合わせた設計である。
UMMはLLMのような推論を画像合成に転送できず、発散反応の挙動を示す。
この現象を擬似統一と呼ぶ。
内部原因の診断は重要であるが、既存の探索手法ではモデル内部の洞察が欠けているか、即時応答依存を無視している。
これらの制約に対処するため、UMMが入力をエンコードして出力を生成する方法を共同で分析する情報理論探索フレームワークを提案する。
10個の代表的UMMに適用すると、擬似統一は二重発散に起因することが判明した。
一 視覚と言語が異なるエントロピー軌跡に従うモダリティ非対称符号化
(II)パターン分割応答では,テキスト生成は高エントロピーの創造性を示し,画像合成は低エントロピーの忠実さを強制する。
双方を統一するモデル(例えばコンテキスト予測)だけがより真の統一を実現し、より少ないパラメータでもより強力な推論ベースのテキスト画像生成を可能にする。
我々の研究は、共有パラメータだけでなく、情報フローにおける真のマルチモーダルシナジーが整合性を必要とすることを示す最初のモデル-内部の統一探索を提供する。
関連論文リスト
- UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations [45.861324782424326]
現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
論文 参考訳(メタデータ) (2026-03-11T12:14:26Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。