論文の概要: Spatial Causal Prediction in Video
- arxiv url: http://arxiv.org/abs/2603.03944v1
- Date: Wed, 04 Mar 2026 11:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.276474
- Title: Spatial Causal Prediction in Video
- Title(参考訳): 映像における空間因果予測
- Authors: Yanguang Zhao, Jie Yang, Shengqiong Wu, Shutong Hu, Hongbo Qiu, Yu Wang, Guijia Zhang, Tan Kai Ze, Hao Fei, Chia-Wen Lin, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 我々は,空間因果的結果の予測と観察以上の推論をモデルに挑戦する新しい課題パラダイムを導入する。
我々は、様々な視点、シーン、因果方向にまたがる1,181本の動画に2500対のQAペアからなるベンチマークを構築した。
23種類の最先端モデルに関する総合的な実験を通して、人間とモデルの性能の差は時間外挿に制限され、因果的接地は弱かった。
- 参考スコア(独自算出の注目度): 56.22332198384257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial reasoning, the ability to understand spatial relations, causality, and dynamic evolution, is central to human intelligence and essential for real-world applications such as autonomous driving and robotics. Existing studies, however, primarily assess models on visible spatio-temporal understanding, overlooking their ability to infer unseen past or future spatial states. In this work, we introduce Spatial Causal Prediction (SCP), a new task paradigm that challenges models to reason beyond observation and predict spatial causal outcomes. We further construct SCP-Bench, a benchmark comprising 2,500 QA pairs across 1,181 videos spanning diverse viewpoints, scenes, and causal directions, to support systematic evaluation. Through comprehensive experiments on {23} state-of-the-art models, we reveal substantial gaps between human and model performance, limited temporal extrapolation, and weak causal grounding. We further analyze key factors influencing performance and propose perception-enhancement and reasoning-guided strategies toward advancing spatial causal intelligence. The project page is https://guangstrip.github.io/SCP-Bench.
- Abstract(参考訳): 空間的推論、空間的関係、因果関係、動的進化を理解する能力は人間の知性の中心であり、自律運転やロボット工学のような現実世界の応用に不可欠である。
しかし、既存の研究は主に可視時空間的理解に基づくモデルを評価しており、過去や将来の空間的状態を推測する能力を見越している。
本研究では,空間因果予測(SCP)を導入し,空間因果予測(SCP)を導入した。
さらに, 多様な視点, シーン, 因果方向にまたがる1,181本のビデオに対して, 2500対のQAペアからなるベンチマークSCP-Benchを構築し, 体系的評価を支援する。
最先端モデルにおける包括的実験により,人間とモデルのパフォーマンス,時間外挿の制限,因果的接地力の弱さが明らかとなった。
さらに,パフォーマンスに影響を及ぼす重要な要因を分析し,空間因果知性向上に向けた知覚向上と推論誘導戦略を提案する。
プロジェクトページはhttps://guangstrip.github.io/SCP-Bench。
関連論文リスト
- Imagine in Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision Language Models [23.12717700882611]
空間的推論は人間の認知の基本的な構成要素です
現在の大規模言語モデル(LLM)と視覚言語モデル(VLM)は、論理的推論、問題解決、意思決定にまたがる顕著な推論能力を示している。
我々は空間状態の内部シミュレーションである想像力が空間世界モデルにおける支配的な推論機構であると仮定する。
論文 参考訳(メタデータ) (2025-11-16T03:09:55Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models [4.889577550694335]
CausalVQAはビデオ質問応答(VQA)のためのベンチマークデータセットである
それは、物理的世界の因果関係に対するモデルの理解を調査する質問と回答のペアで構成されている。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [17.976302783133956]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。
動的推論、複雑な空間論理、空間相互作用、視点取りという4つの主要なカテゴリをカバーしている。
注意深い手動アノテーションにより8.4K以上の質問応答対を構築する。
論文 参考訳(メタデータ) (2025-06-03T17:58:29Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Development of Human Motion Prediction Strategy using Inception Residual
Block [1.0705399532413613]
Inception Residual Block (IRB) を提案する。
我々の主な貢献は、事前に観測されたポーズと次の予測されたポーズの間に連続性を持つように、入力と開始ブロックの出力の間の残差接続を提案することである。
提案したアーキテクチャでは、人間のポーズに関する事前知識をよりよく学習し、論文で詳述したよりはるかに高い予測精度を達成する。
論文 参考訳(メタデータ) (2021-08-09T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。