論文の概要: FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video
- arxiv url: http://arxiv.org/abs/2503.23094v1
- Date: Sat, 29 Mar 2025 14:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:02.176913
- Title: FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video
- Title(参考訳): FRAME:エゴセントリックビデオからのアバターモーションのフロアアアライン表現
- Authors: Andrea Boscolo Camiletto, Jian Wang, Eduardo Alvarado, Rishabh Dabral, Thabo Beeler, Marc Habermann, Christian Theobalt,
- Abstract要約: ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
- 参考スコア(独自算出の注目度): 52.33896173943054
- License:
- Abstract: Egocentric motion capture with a head-mounted body-facing stereo camera is crucial for VR and AR applications but presents significant challenges such as heavy occlusions and limited annotated real-world data. Existing methods rely on synthetic pretraining and struggle to generate smooth and accurate predictions in real-world settings, particularly for lower limbs. Our work addresses these limitations by introducing a lightweight VR-based data collection setup with on-board, real-time 6D pose tracking. Using this setup, we collected the most extensive real-world dataset for ego-facing ego-mounted cameras to date in size and motion variability. Effectively integrating this multimodal input -- device pose and camera feeds -- is challenging due to the differing characteristics of each data source. To address this, we propose FRAME, a simple yet effective architecture that combines device pose and camera feeds for state-of-the-art body pose prediction through geometrically sound multimodal integration and can run at 300 FPS on modern hardware. Lastly, we showcase a novel training strategy to enhance the model's generalization capabilities. Our approach exploits the problem's geometric properties, yielding high-quality motion capture free from common artifacts in prior works. Qualitative and quantitative evaluations, along with extensive comparisons, demonstrate the effectiveness of our method. Data, code, and CAD designs will be available at https://vcai.mpi-inf.mpg.de/projects/FRAME/
- Abstract(参考訳): ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だが、重い閉塞や、注釈付き現実データのような重要な課題がある。
既存の方法は、特に下肢において、現実世界で滑らかで正確な予測を生成するために、合成事前訓練と苦労に頼っている。
私たちの研究は、オンボードでリアルタイムの6Dポーズトラッキングを備えた軽量なVRベースのデータ収集セットアップを導入することで、これらの制限に対処しています。
この設定を用いて、エゴ対応のエゴマウントカメラのための最も広範な現実世界のデータセットを、サイズと動きのばらつきで収集した。
このマルチモーダル入力(デバイスポーズとカメラフィード)を効果的に統合することは、各データソースの異なる特性のために難しい。
そこで本研究では,最新のハードウェア上で300FPSで動作可能な,幾何学的に健全なマルチモーダル統合による最先端のボディポーズ予測のための,デバイスポーズとカメラフィードを組み合わせた,シンプルで効果的なアーキテクチャFRAMEを提案する。
最後に,モデルの一般化能力を高めるための新しいトレーニング戦略を紹介する。
提案手法は, 従来の工芸品から解放された高品質なモーションキャプチャーを実現するため, 問題の幾何学的特性を利用する。
定性的,定量的な評価と広範囲な比較により,本手法の有効性が示された。
データ、コード、CADの設計はhttps://vcai.mpi-inf.mpg.de/projects/FRAME/で公開される。
関連論文リスト
- Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - UmeTrack: Unified multi-view end-to-end hand tracking for VR [34.352638006495326]
空間における3Dハンドポーズのリアルタイム追跡は難しい問題であり、VRインタラクションにおいて重要な役割を果たす。
本稿では,世界空間における3Dハンドポーズを直接予測する多視点多フレームハンドトラッキングのための,エンドツーエンドの識別可能な統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-31T19:09:21Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文 参考訳(メタデータ) (2020-10-31T04:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。