論文の概要: Understanding Dynamic Scenes in Ego Centric 4D Point Clouds
- arxiv url: http://arxiv.org/abs/2508.07251v1
- Date: Sun, 10 Aug 2025 09:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.778731
- Title: Understanding Dynamic Scenes in Ego Centric 4D Point Clouds
- Title(参考訳): Ego Centric 4D Point Cloudsにおける動的シーンの理解
- Authors: Junsheng Huang, Shengyu Hao, Bocheng Hu, Gaoang Wang,
- Abstract要約: EgoDynamic4Dは、非常にダイナミックなシーンに関する新しいQAベンチマークである。
エージェントの動作,人間と物体の相互作用予測,関係,軌道の理解,時間・因果推論,詳細な指標を含む12の動的QAタスクを設計する。
提案手法は,エゴ中心の動的シーン理解のためのマルチモーダル時間モデルの有効性を検証し,ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 7.004204907286336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding dynamic 4D scenes from an egocentric perspective-modeling changes in 3D spatial structure over time-is crucial for human-machine interaction, autonomous navigation, and embodied intelligence. While existing egocentric datasets contain dynamic scenes, they lack unified 4D annotations and task-driven evaluation protocols for fine-grained spatio-temporal reasoning, especially on motion of objects and human, together with their interactions. To address this gap, we introduce EgoDynamic4D, a novel QA benchmark on highly dynamic scenes, comprising RGB-D video, camera poses, globally unique instance masks, and 4D bounding boxes. We construct 927K QA pairs accompanied by explicit Chain-of-Thought (CoT), enabling verifiable, step-by-step spatio-temporal reasoning. We design 12 dynamic QA tasks covering agent motion, human-object interaction, trajectory prediction, relation understanding, and temporal-causal reasoning, with fine-grained, multidimensional metrics. To tackle these tasks, we propose an end-to-end spatio-temporal reasoning framework that unifies dynamic and static scene information, using instance-aware feature encoding, time and camera encoding, and spatially adaptive down-sampling to compress large 4D scenes into token sequences manageable by LLMs. Experiments on EgoDynamic4D show that our method consistently outperforms baselines, validating the effectiveness of multimodal temporal modeling for egocentric dynamic scene understanding.
- Abstract(参考訳): 時間とともに3次元空間構造をモデル化するエゴセントリックな視点から、ダイナミックな4Dシーンを理解することは、人間と機械の相互作用、自律ナビゲーション、そしてインボデードインテリジェンスにとって不可欠である。
既存の自我中心のデータセットにはダイナミックなシーンが含まれているが、4Dアノテーションとタスク駆動評価プロトコルが欠如している。
このギャップに対処するために,RGB-Dビデオ,カメラポーズ,グローバルなインスタンスマスク,4Dバウンディングボックスなどを含む,非常にダイナミックなシーンに関する新たなQAベンチマークであるEgoDynamic4Dを紹介した。
また,927KのQAペアに明示的なChain-of-Thought(CoT)を伴って構成し,時相推論の段階的検証を可能にする。
エージェント動作,人-物体相互作用,軌道予測,関係理解,時間-因果推論を含む12の動的QAタスクを,きめ細かい多次元計測値を用いて設計する。
これらの課題に対処するために、インスタンス認識機能符号化、時間とカメラエンコーディング、空間適応型ダウンサンプリングを用いて、動的および静的シーン情報を統一するエンドツーエンドの時空間推論フレームワークを提案し、LLMで管理可能なトークンシーケンスに4Dシーンを圧縮する。
EgoDynamic4Dの実験により,本手法はベースラインを一貫して上回り,エゴセントリックな動的シーン理解のためのマルチモーダル時間モデルの有効性を検証した。
関連論文リスト
- LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering [23.04702935216809]
我々はDynSuperCLEVRを紹介した。DynSuperCLEVRは3Dオブジェクトの動的特性の言語理解に焦点を当てた最初のビデオ質問応答データセットである。
現実的なクエリ、将来の予測、そして反現実的推論を含む3種類の質問を生成する。
提案手法は,まず物理前駆体を用いた3次元生成モデルを用いて4次元世界状態を推定し,その4次元世界状態に基づく疑問に答えるために,ニューラルシンボリック推論を用いる。
論文 参考訳(メタデータ) (2024-06-02T05:51:15Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。