論文の概要: EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2406.19811v1
- Date: Fri, 28 Jun 2024 10:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.972486
- Title: EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting
- Title(参考訳): EgoGaussian:3Dガウス撮影によるエゴセントリックビデオからのダイナミックシーン理解
- Authors: Daiwei Zhang, Gengyan Li, Jiajie Li, Mickaël Bressieux, Otmar Hilliges, Marc Pollefeys, Luc Van Gool, Xi Wang,
- Abstract要約: 本稿では,3Dシーンを同時に再構築し,RGBエゴセントリック入力のみから3Dオブジェクトの動きを追跡するEgoGaussianについて紹介する。
我々のアプローチでは、人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを採用している。
- 参考スコア(独自算出の注目度): 95.44545809256473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activities are inherently complex, and even simple household tasks involve numerous object interactions. To better understand these activities and behaviors, it is crucial to model their dynamic interactions with the environment. The recent availability of affordable head-mounted cameras and egocentric data offers a more accessible and efficient means to understand dynamic human-object interactions in 3D environments. However, most existing methods for human activity modeling either focus on reconstructing 3D models of hand-object or human-scene interactions or on mapping 3D scenes, neglecting dynamic interactions with objects. The few existing solutions often require inputs from multiple sources, including multi-camera setups, depth-sensing cameras, or kinesthetic sensors. To this end, we introduce EgoGaussian, the first method capable of simultaneously reconstructing 3D scenes and dynamically tracking 3D object motion from RGB egocentric input alone. We leverage the uniquely discrete nature of Gaussian Splatting and segment dynamic interactions from the background. Our approach employs a clip-level online learning pipeline that leverages the dynamic nature of human activities, allowing us to reconstruct the temporal evolution of the scene in chronological order and track rigid object motion. Additionally, our method automatically segments object and background Gaussians, providing 3D representations for both static scenes and dynamic objects. EgoGaussian outperforms previous NeRF and Dynamic Gaussian methods in challenging in-the-wild videos and we also qualitatively demonstrate the high quality of the reconstructed models.
- Abstract(参考訳): 人間の活動は本質的に複雑であり、単純な家庭作業でさえ多数のオブジェクトの相互作用を伴う。
これらの活動や行動をよりよく理解するためには、環境との動的な相互作用をモデル化することが不可欠である。
最近、手頃なヘッドマウントカメラとエゴセントリックなデータが利用可能になったことで、3D環境における動的な人間とオブジェクトの相互作用を理解するための、よりアクセスしやすく効率的な手段が提供される。
しかし、人間の活動モデリングの既存の手法は、手動物体の3Dモデルや人間のシーンの相互作用の再構築や、物体との動的相互作用を無視した3Dシーンのマッピングに重点を置いている。
既存のソリューションでは、マルチカメラのセットアップ、奥行き検知カメラ、審美センサーなど、複数のソースからの入力を必要とすることが多い。
そこで本研究では,RGBエゴセントリック入力だけで3Dシーンを同時に再構築し,動的に3Dオブジェクトの動きを追跡するEgoGaussianを提案する。
ガウススプラッティングの独特な離散的性質と背景からのセグメント動的相互作用を利用する。
提案手法では,人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを用いて,時間順にシーンの時間的進化を再構築し,剛体物体の動きを追跡する。
さらに,オブジェクトと背景ガウスを自動的に分割し,静的なシーンと動的オブジェクトの両方に3D表現を提供する。
EgoGaussianは従来のNeRF法やDynamic Gaussian法よりも優れており、再構成されたモデルの品質を質的に実証している。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative
Modeling of Human-Object Interactions [11.32229757116179]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計されたParaHomeシステムを紹介した。
ParaHomeシステムを利用することで、人間と物体の相互作用の大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Kinematics-Guided Reinforcement Learning for Object-Aware 3D Ego-Pose
Estimation [25.03715978502528]
本研究では,物体の相互作用と人体動態を3次元エゴ位置推定のタスクに組み込む手法を提案する。
我々は人体の運動モデルを用いて、人間の運動の全範囲を表現し、身体の力学モデルを用いて、物理学シミュレータ内の物体と相互作用する。
これは、エゴセントリックなビデオからオブジェクトと物理的に有効な3Dフルボディインタラクションシーケンスを推定する最初の試みである。
論文 参考訳(メタデータ) (2020-11-10T00:06:43Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。