論文の概要: Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
- arxiv url: http://arxiv.org/abs/2512.01816v1
- Date: Mon, 01 Dec 2025 15:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.940264
- Title: Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
- Title(参考訳): ビジョン:Causal World Process Insightsのための統一された理解と生成のベンチマーク
- Authors: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan,
- Abstract要約: 現在のモデルは、理解と生成を統一することで、単一モダリティ表現の限界を超越することを目的としている。
トレーニングと評価における静的な単一イメージ生成への依存は、静的パターンマッチングとセマンティックフュージョンに過度に適合する。
本稿では,連鎖型テキスト・マルチ画像生成のための因果事象進行ベンチマークEnvisionを提案する。
- 参考スコア(独自算出の注目度): 41.385614383367205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.
- Abstract(参考訳): 現在のマルチモーダルモデルは、理解と生成を統一することで、単一のモダリティ表現の限界を超越することを目的としており、しばしば意味的一貫性を校正するためにテキスト・ツー・イメージ(T2I)タスクを使用する。
しかしながら、トレーニングと評価における静的な単一イメージ生成への依存は、静的パターンマッチングとセマンティックフュージョンに過度に適合すると同時に、時間とともに展開する動的プロセスをモデル化する能力を根本的に阻害する。
これらの制約に対処するため,連鎖したテキスト・マルチ画像生成のための因果事象進行ベンチマークEnvisionを提案する。
世界の知識に根ざし、時空間因果関係によって構成され、既存の評価次元を再編成し、6つの科学的・人文科学領域にまたがる1000の4段階のプロンプトを含む。
単一画像から逐次フレームへ評価を移行し、因果的制約に固執しながら世界知識を真に内在化するかどうかを評価するため、多次元整合性、物理性、美学を総合的に統合したエンビジョンスコア(Envision-Score)を導入する。
15モデル(10の特殊T2Iモデル、5の統一T2Iモデル)の総合的な評価により、特殊T2Iモデルは、美的レンダリングの習熟度を示すが、本質的な世界知識は欠如している。
統一マルチモーダルモデルは、このギャップを橋渡しし、因果的物語のコヒーレンスにおいて、常に特別なものよりも優れています。
しかし、これらの統一アーキテクチャでさえクローズドソースモデルに従属し、時空間整合性という中核的な課題を克服するのに苦労する。
このことは、因果的に分離された単一画像に焦点をあてることが、多フレーム推論と生成を阻害し、動的世界モデリングよりも静的パターンマッチングを推進し、世界知識の内在化、生成を究極的に制限することを示しています。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models [15.983959465314749]
我々は、暗黙の世界の知識とT2Iモデルの物理的因果推論の把握を評価する最初の総合的なベンチマークであるPicWorldを紹介する。
このベンチマークは、3つのコアカテゴリにわたる1,100のプロンプトで構成されている。
我々は、PicWorldで17の主流モデルT2Iを徹底的に分析し、暗黙の世界知識と物理的因果推論の能力に普遍的に限界があることを示した。
論文 参考訳(メタデータ) (2025-11-23T03:44:54Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - TinyTim: A Family of Language Models for Divergent Generation [0.0]
言語モデルであるTinyTimを導入し,より広範なシステム内での分岐生成の源泉として機能する。
教師なし微調整モデル(TinyTim-V1)と新しい命令微調整モデル(TinyTim-V2)の定量的解析は、語彙的発明にとって重要な能力を示す。
この研究は、収束したシステムと組み合わせることで、問題を再編成し、統計的最適化の限界を超えるブレークスルーを強制することができる工学的分岐モデルのための方法論を確立する。
論文 参考訳(メタデータ) (2025-08-15T17:14:29Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。