論文の概要: DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2510.18873v1
- Date: Tue, 21 Oct 2025 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.127002
- Title: DSI-Bench: A Benchmark for Dynamic Spatial Intelligence
- Title(参考訳): DSI-Bench: 動的空間知能のベンチマーク
- Authors: Ziang Zhang, Zehan Wang, Guanghao Zhang, Weilong Dai, Yan Xia, Ziang Yan, Minjie Hong, Zhou Zhao,
- Abstract要約: 動的空間関係に関する推論は、オブザーバーとオブジェクトが同時に移動することが多いため、不可欠である。
ダイナミック・スペース・インテリジェンスを導入し,1000近いダイナミックビデオと1,700以上の手作業による注釈付き質問を用いたベンチマークであるDSI-Benchを提案する。
- 参考スコア(独自算出の注目度): 41.83862115769156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about dynamic spatial relationships is essential, as both observers and objects often move simultaneously. Although vision-language models (VLMs) and visual expertise models excel in 2D tasks and static scenarios, their ability to fully understand dynamic 3D scenarios remains limited. We introduce Dynamic Spatial Intelligence and propose DSI-Bench, a benchmark with nearly 1,000 dynamic videos and over 1,700 manually annotated questions covering nine decoupled motion patterns of observers and objects. Spatially and temporally symmetric designs reduce biases and enable systematic evaluation of models' reasoning about self-motion and object motion. Our evaluation of 14 VLMs and expert models reveals key limitations: models often conflate observer and object motion, exhibit semantic biases, and fail to accurately infer relative relationships in dynamic scenarios. Our DSI-Bench provides valuable findings and insights about the future development of general and expertise models with dynamic spatial intelligence.
- Abstract(参考訳): 動的空間関係に関する推論は、オブザーバーとオブジェクトが同時に移動することが多いため、不可欠である。
視覚言語モデル(VLM)と視覚専門モデル(VLM)は2Dタスクや静的シナリオに優れるが、動的3Dシナリオを完全に理解する能力は依然として限られている。
我々はDynamic Spatial Intelligenceを導入し、DSI-Benchを提案する。DSI-Benchは1000近いダイナミックビデオと1,700以上の手動の注釈付き質問で、観察者やオブジェクトの9つの分離された動きパターンをカバーしている。
空間的・時間的に対称なデザインはバイアスを低減し、自己運動や物体の動きに関するモデル推論の体系的な評価を可能にする。
モデルはしばしばオブザーバとオブジェクトの動きを分割し、意味バイアスを示し、動的シナリオにおける相対関係を正確に推測することができない。
我々のDSI-Benchは、動的空間知能を持つ一般および専門モデルの将来的な開発に関する貴重な知見と洞察を提供する。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文 参考訳(メタデータ) (2025-06-12T14:53:36Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - OCK: Unsupervised Dynamic Video Prediction with Object-Centric Kinematics [22.119612406160073]
我々は,オブジェクト中心キネマティクスとオブジェクトスロットを利用した動的ビデオ予測モデルOCKを提案する。
本稿では,対象運動を明示する新しいコンポーネントであるObject Kinematicsを紹介する。
複雑なオブジェクト属性と動きを持つ複雑なシーンにおいて,本モデルは優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-29T04:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。