論文の概要: YoCausal: How Far is Video Generation from World Model? A Causality Perspective
- arxiv url: http://arxiv.org/abs/2605.30346v1
- Date: Thu, 28 May 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.75906
- Title: YoCausal: How Far is Video Generation from World Model? A Causality Perspective
- Title(参考訳): YoCausal:世界モデルからビデオを生成するにはどれくらいかかるのか?
- Authors: You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang,
- Abstract要約: 本稿では,認知科学の Violation of expectation (VoE) パラダイムにインスパイアされた2段階のベンチマークであるYoCausalを紹介する。
レベル1は逆サプライズ指数(Reverse Surprise Index、RSI)を導入している。
レベル2では、VLMを活用してデータセットを因果サブセットと非因果サブセットに階層化するCausality Cognition Index(CCI)が導入されている。
- 参考スコア(独自算出の注目度): 26.90872070667727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As video diffusion models (VDMs) advance toward world models, a key question arises: do they truly understand causality, or merely overfit to statistical temporal patterns? Existing benchmarks mostly rely on synthetic data, limiting real-world generalization due to the sim-to-real gap. We present YoCausal, a two-level benchmark inspired by the Violation of Expectation (VoE) paradigm from cognitive science. By temporally reversing real-world videos at zero cost as natural counterfactual samples, YoCausal establishes an arbitrarily extensible evaluation protocol. Level 1 introduces the Reverse Surprise Index (RSI), quantifying arrow-of-time perception via denoising loss. Level 2 introduces the Causality Cognition Index (CCI), which leverages a VLM to stratify datasets into causal and non-causal subsets, disentangling genuine causal reasoning from temporal bias. Evaluation of 13 state-of-the-art VDMs reveals that perceiving the arrow of time does not imply understanding causality, and a significant gap persists relative to human-level causal cognition.
- Abstract(参考訳): ビデオ拡散モデル(VDM)が世界モデルに向かって進むにつれ、重要な疑問が生じる。
既存のベンチマークは主に合成データに依存しており、sim-to-realギャップによる現実の一般化を制限する。
本稿では,認知科学の Violation of expectation (VoE) パラダイムにインスパイアされた2段階のベンチマークであるYoCausalを紹介する。
YoCausalは、現実世界のビデオの時間的反転を、天然の反ファクトサンプルとしてゼロコストで行うことによって、任意に拡張可能な評価プロトコルを確立している。
レベル1はReverse Surprise Index (RSI)を導入し、聴覚障害による矢印知覚を定量化する。
レベル2では、VLMを活用するCausality Cognition Index(CCI)を導入し、データセットを因果サブセットと非因果サブセットに階層化し、時間的バイアスから真因果推論を遠ざけている。
13種類の最先端のVDMの評価では、時間の矢印を知覚することは因果関係を理解せず、人間の因果認識に対して有意なギャップが持続することが示された。
関連論文リスト
- Learning Uncertainty from Sequential Internal Dispersion in Large Language Models [52.29267172760918]
不確実性推定は、大規模言語モデルにおける幻覚を検出するための有望なアプローチである。
最近の手法は一般に不確実性を推定するために内部状態のモデルに依存する。
本稿では,教師付き幻覚検出フレームワークであるシークエンシャル内部変数表現(SIVR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T06:31:29Z) - A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning [49.61652671596548]
「多像幻覚推論」では、前頭と時頭クエリ間の大規模なパフォーマンス低下は、真に理解するのではなく、表面的なショートカットへの依存を示す。
これを軽減するために、我々は、チェーンステップへの詳細な推論と決定的な判断に基づく、時間的連鎖構築という新しいデータセットを開発する。
実験により,本手法は精度を向上するだけでなく,70%以上から6.53%まで,前向きのパフォーマンスギャップも改善することが示された。
論文 参考訳(メタデータ) (2026-04-12T07:48:44Z) - Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models [3.701776503593477]
現代の視覚言語モデル(VLM)は多くのマルチモーダルなタスクで優れるが、ビデオにおける時間的情報の把握は依然として弱く、決定的に過小評価されている。
短いクリップが前方または後方で再生されるか否かの矢印(AoT)を判断する。
AoT-PsyPhyBENCHは精神物理学的に検証されたベンチマークで、人間が確立した同じ刺激と行動ベースラインを用いて、VLMが自然ビデオの時間方向を推測できるかどうかをテストする。
論文 参考訳(メタデータ) (2025-10-30T08:21:50Z) - Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。
LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文 参考訳(メタデータ) (2025-10-14T06:29:40Z) - Time Blindness: Why Video-Language Models Can't See What Humans Can? [48.653937503646375]
我々は、ノイズのようなフレームの時間的シーケンスにのみ情報を格納するベンチマークである$bfSpookyBenchを紹介した。
人間は98%以上の精度でこれらのシーケンスの形状、テキスト、パターンを認識できるが、最先端の視覚言語モデルは0%の精度を達成する。
この性能ギャップは、フレームレベルの空間的特徴に対する過度な信頼と、時間的手がかりから意味を抽出できないという、限界を浮き彫りにする。
論文 参考訳(メタデータ) (2025-05-30T17:59:12Z) - TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models [13.018267909897014]
時間的因果性、特に現実世界の知識によって支配される物体の不可逆的な変換に関する推論は、人間の視覚的理解の基本的な側面である。
時間次元における視覚言語モデル(VLM)の因果推論能力を評価するために設計された新しいベンチマークである textbfTimeCausality を紹介する。
現在のSOTAオープンソースVLMは、GPT-4oのようなクローズドソースモデルに匹敵するパフォーマンスレベルを達成していますが、クローズドソースの競合製品と比べてベンチマークに大きく遅れています。
論文 参考訳(メタデータ) (2025-05-21T12:18:02Z) - Realization of Causal Representation Learning to Adjust Confounding Bias
in Latent Space [28.133104562449212]
因果DAG (Directed Acyclic Graphs) は通常、2次元平面において考慮される。
本稿では,変数の値がもはや時間スタンプに依存しておらず,時系列を軸と見なすことができるEmphdo-DAGとして因果DAGを再定義する。
論文 参考訳(メタデータ) (2022-11-15T23:35:15Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。