論文の概要: EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2406.19811v1
- Date: Fri, 28 Jun 2024 10:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.972486
- Title: EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting
- Title(参考訳): EgoGaussian:3Dガウス撮影によるエゴセントリックビデオからのダイナミックシーン理解
- Authors: Daiwei Zhang, Gengyan Li, Jiajie Li, Mickaël Bressieux, Otmar Hilliges, Marc Pollefeys, Luc Van Gool, Xi Wang,
- Abstract要約: 本稿では,3Dシーンを同時に再構築し,RGBエゴセントリック入力のみから3Dオブジェクトの動きを追跡するEgoGaussianについて紹介する。
我々のアプローチでは、人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを採用している。
- 参考スコア(独自算出の注目度): 95.44545809256473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activities are inherently complex, and even simple household tasks involve numerous object interactions. To better understand these activities and behaviors, it is crucial to model their dynamic interactions with the environment. The recent availability of affordable head-mounted cameras and egocentric data offers a more accessible and efficient means to understand dynamic human-object interactions in 3D environments. However, most existing methods for human activity modeling either focus on reconstructing 3D models of hand-object or human-scene interactions or on mapping 3D scenes, neglecting dynamic interactions with objects. The few existing solutions often require inputs from multiple sources, including multi-camera setups, depth-sensing cameras, or kinesthetic sensors. To this end, we introduce EgoGaussian, the first method capable of simultaneously reconstructing 3D scenes and dynamically tracking 3D object motion from RGB egocentric input alone. We leverage the uniquely discrete nature of Gaussian Splatting and segment dynamic interactions from the background. Our approach employs a clip-level online learning pipeline that leverages the dynamic nature of human activities, allowing us to reconstruct the temporal evolution of the scene in chronological order and track rigid object motion. Additionally, our method automatically segments object and background Gaussians, providing 3D representations for both static scenes and dynamic objects. EgoGaussian outperforms previous NeRF and Dynamic Gaussian methods in challenging in-the-wild videos and we also qualitatively demonstrate the high quality of the reconstructed models.
- Abstract(参考訳): 人間の活動は本質的に複雑であり、単純な家庭作業でさえ多数のオブジェクトの相互作用を伴う。
これらの活動や行動をよりよく理解するためには、環境との動的な相互作用をモデル化することが不可欠である。
最近、手頃なヘッドマウントカメラとエゴセントリックなデータが利用可能になったことで、3D環境における動的な人間とオブジェクトの相互作用を理解するための、よりアクセスしやすく効率的な手段が提供される。
しかし、人間の活動モデリングの既存の手法は、手動物体の3Dモデルや人間のシーンの相互作用の再構築や、物体との動的相互作用を無視した3Dシーンのマッピングに重点を置いている。
既存のソリューションでは、マルチカメラのセットアップ、奥行き検知カメラ、審美センサーなど、複数のソースからの入力を必要とすることが多い。
そこで本研究では,RGBエゴセントリック入力だけで3Dシーンを同時に再構築し,動的に3Dオブジェクトの動きを追跡するEgoGaussianを提案する。
ガウススプラッティングの独特な離散的性質と背景からのセグメント動的相互作用を利用する。
提案手法では,人間の活動の動的な性質を活用するクリップレベルのオンライン学習パイプラインを用いて,時間順にシーンの時間的進化を再構築し,剛体物体の動きを追跡する。
さらに,オブジェクトと背景ガウスを自動的に分割し,静的なシーンと動的オブジェクトの両方に3D表現を提供する。
EgoGaussianは従来のNeRF法やDynamic Gaussian法よりも優れており、再構成されたモデルの品質を質的に実証している。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative
Modeling of Human-Object Interactions [11.32229757116179]
そこで我々は,人間と物体の動的3次元運動を,共通のホーム環境内で捉えるために設計されたParaHomeシステムを紹介した。
ParaHomeシステムを利用することで、人間と物体の相互作用の大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2024-01-18T18:59:58Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Kinematics-Guided Reinforcement Learning for Object-Aware 3D Ego-Pose
Estimation [25.03715978502528]
本研究では,物体の相互作用と人体動態を3次元エゴ位置推定のタスクに組み込む手法を提案する。
我々は人体の運動モデルを用いて、人間の運動の全範囲を表現し、身体の力学モデルを用いて、物理学シミュレータ内の物体と相互作用する。
これは、エゴセントリックなビデオからオブジェクトと物理的に有効な3Dフルボディインタラクションシーケンスを推定する最初の試みである。
論文 参考訳(メタデータ) (2020-11-10T00:06:43Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。