論文の概要: Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos
- arxiv url: http://arxiv.org/abs/2411.09145v3
- Date: Sun, 16 Mar 2025 15:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:56:31.058364
- Title: Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos
- Title(参考訳): エゴセントリックビデオのための自己監督型単眼4次元シーン再構成
- Authors: Chengbo Yuan, Geng Chen, Li Yi, Yang Gao,
- Abstract要約: EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 25.41337525728398
- License:
- Abstract: Egocentric videos provide valuable insights into human interactions with the physical world, which has sparked growing interest in the computer vision and robotics communities. A critical challenge in fully understanding the geometry and dynamics of egocentric videos is dense scene reconstruction. However, the lack of high-quality labeled datasets in this field has hindered the effectiveness of current supervised learning methods. In this work, we aim to address this issue by exploring an self-supervised dynamic scene reconstruction approach. We introduce EgoMono4D, a novel model that unifies the estimation of multiple variables necessary for Egocentric Monocular 4D reconstruction, including camera intrinsic, camera poses, and video depth, all within a fast feed-forward framework. Starting from pretrained single-frame depth and intrinsic estimation model, we extend it with camera poses estimation and align multi-frame results on large-scale unlabeled egocentric videos. We evaluate EgoMono4D in both in-domain and zero-shot generalization settings, achieving superior performance in dense pointclouds sequence reconstruction compared to all baselines. EgoMono4D represents the first attempt to apply self-supervised learning for pointclouds sequence reconstruction to the label-scarce egocentric field, enabling fast, dense, and generalizable reconstruction. The interactable visualization, code and trained models are released https://egomono4d.github.io/
- Abstract(参考訳): エゴセントリックなビデオは、物理的世界との人間の相互作用に関する貴重な洞察を与え、コンピュータビジョンとロボティクスコミュニティへの関心が高まっている。
エゴセントリックなビデオの幾何学とダイナミックスを完全に理解する上で重要な課題は、密集したシーン再構築である。
しかし、この分野における高品質なラベル付きデータセットの欠如は、現在の教師付き学習方法の有効性を妨げている。
本研究では,自己監督型動的シーン再構築手法を探求し,この問題に対処することを目的とする。
EgoMono4Dは、カメラ内在性、カメラポーズ、ビデオ深度を含む、Egocentric Monocular 4D再構成に必要な複数の変数を、すべて高速フィードフォワードフレームワーク内に統一する新しいモデルである。
事前訓練された単フレーム深度と本質的な推定モデルから、カメラのポーズを推定して拡張し、大規模にラベル付けされていないエゴセントリックなビデオに複数フレームの結果をアライメントする。
我々は、EgoMono4Dをドメイン内およびゼロショットの一般化設定の両方で評価し、全てのベースラインと比較して高密度の点雲列再構成において優れた性能を実現する。
EgoMono4Dは、ポイントクラウドシーケンス再構築のための自己教師付き学習をラベル中心のフィールドに適用する最初の試みであり、高速で密度が高く、一般化可能な再構築を可能にする。
インタラクティブな視覚化、コード、トレーニングされたモデルは、https://egomono4d.github.io/でリリースされる。
関連論文リスト
- Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。