論文の概要: Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering
- arxiv url: http://arxiv.org/abs/2406.00622v2
- Date: Wed, 23 Apr 2025 04:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.795862
- Title: Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering
- Title(参考訳): ビデオ質問応答における物理優先事項による構成的4次元動的シーンの理解
- Authors: Xingrui Wang, Wufei Ma, Angtian Wang, Shuo Chen, Adam Kortylewski, Alan Yuille,
- Abstract要約: 我々はDynSuperCLEVRを紹介した。DynSuperCLEVRは3Dオブジェクトの動的特性の言語理解に焦点を当てた最初のビデオ質問応答データセットである。
現実的なクエリ、将来の予測、そして反現実的推論を含む3種類の質問を生成する。
提案手法は,まず物理前駆体を用いた3次元生成モデルを用いて4次元世界状態を推定し,その4次元世界状態に基づく疑問に答えるために,ニューラルシンボリック推論を用いる。
- 参考スコア(独自算出の注目度): 23.04702935216809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For vision-language models (VLMs), understanding the dynamic properties of objects and their interactions in 3D scenes from videos is crucial for effective reasoning about high-level temporal and action semantics. Although humans are adept at understanding these properties by constructing 3D and temporal (4D) representations of the world, current video understanding models struggle to extract these dynamic semantics, arguably because these models use cross-frame reasoning without underlying knowledge of the 3D/4D scenes. In this work, we introduce DynSuperCLEVR, the first video question answering dataset that focuses on language understanding of the dynamic properties of 3D objects. We concentrate on three physical concepts -- velocity, acceleration, and collisions within 4D scenes. We further generate three types of questions, including factual queries, future predictions, and counterfactual reasoning that involve different aspects of reasoning about these 4D dynamic properties. To further demonstrate the importance of explicit scene representations in answering these 4D dynamics questions, we propose NS-4DPhysics, a Neural-Symbolic VideoQA model integrating Physics prior for 4D dynamic properties with explicit scene representation of videos. Instead of answering the questions directly from the video text input, our method first estimates the 4D world states with a 3D generative model powered by physical priors, and then uses neural symbolic reasoning to answer the questions based on the 4D world states. Our evaluation on all three types of questions in DynSuperCLEVR shows that previous video question answering models and large multimodal models struggle with questions about 4D dynamics, while our NS-4DPhysics significantly outperforms previous state-of-the-art models. Our code and data are released in https://xingruiwang.github.io/projects/DynSuperCLEVR/.
- Abstract(参考訳): 視覚言語モデル(VLM)では,映像からの3次元シーンにおける物体の動的特性とその相互作用を理解することが,高レベルの時間的・行動的意味論の効果的な推論に不可欠である。
人間は世界の3Dおよび時間的(4D)表現を構築することでこれらの特性を理解することに長けているが、現在のビデオ理解モデルはこれらのダイナミックセマンティクスを抽出するのに苦労している。
本研究では,3次元オブジェクトの動的特性の言語理解に焦点を当てた,最初のビデオ質問応答データセットであるDynSuperCLEVRを紹介する。
我々は、速度、加速度、衝突の3つの物理概念を4Dシーン内で集中する。
さらに,これらの4次元動的特性に関する推論の異なる側面を含む,事実的クエリ,将来の予測,および反実的推論を含む3種類の質問を生成する。
これらの4Dダイナミックス問題に答える上で、明示的なシーン表現の重要性をさらに示すために、ビデオの明示的なシーン表現と4D動的特性に先立って物理を組み込んだNS-4DPhysicsを提案する。
ビデオテキスト入力から直接質問に答える代わりに,まず物理前駆体を用いた3次元生成モデルを用いて4次元世界状態を推定し,その4次元世界状態に基づいて質問に答えるために,ニューラルシンボリック推論を用いる。
DynSuperCLEVRにおける3種類の質問に対する評価では,従来のビデオ質問応答モデルと大規模マルチモーダルモデルでは4次元ダイナミクスに関する疑問に苦慮する一方で,NS-4DPhysicsは従来の最先端モデルよりも有意に優れていた。
私たちのコードとデータはhttps://xingruiwang.github.io/projects/DynSuperCLEVR/で公開されています。
関連論文リスト
- Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video [12.283639677279645]
マルチステージ最適化フレームワークであるUni4Dを導入し,複数の事前学習モデルを用いて動的3Dモデリングを行う。
その結果,動的4次元モデリングにおける視覚的品質の優れた最先端性能が示された。
論文 参考訳(メタデータ) (2025-03-27T17:57:32Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Phys4DGen: Physics-Compliant 4D Generation with Multi-Material Composition Perception [4.054634170768821]
Phys4DGenは、多物質合成知覚と物理シミュレーションを統合する新しい4D生成フレームワークである。
このフレームワークは、3つの革新的なモジュールを通して、自動化され、物理的に妥当な4D生成を実現する。
合成と実世界の両方のデータセットの実験により、Phys4DGenは物理的リアリズムを持つ高忠実な4Dコンテンツを生成可能であることが示された。
論文 参考訳(メタデータ) (2024-11-25T12:12:38Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。