論文の概要: HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos
- arxiv url: http://arxiv.org/abs/2411.19167v2
- Date: Wed, 30 Apr 2025 13:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.154687
- Title: HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos
- Title(参考訳): HOT3D:Egocentric Multi-View Videosの3Dによる手と物体の追跡
- Authors: Prithviraj Banerjee, Sindi Shkodrani, Pierre Moulon, Shreyas Hampali, Shangchen Han, Fan Zhang, Linguang Zhang, Jade Fountain, Edward Miller, Selen Basol, Richard Newcombe, Robert Wang, Jakob Julian Engel, Tomas Hodan,
- Abstract要約: データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。
記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。
実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
- 参考スコア(独自算出の注目度): 9.513100627302755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (3.7M+ images) of recordings that feature 19 subjects interacting with 33 diverse rigid objects. In addition to simple pick-up, observe, and put-down actions, the subjects perform actions typical for a kitchen, office, and living room environment. The recordings include multiple synchronized data streams containing egocentric multi-view RGB/monochrome images, eye gaze signal, scene point clouds, and 3D poses of cameras, hands, and objects. The dataset is recorded with two headsets from Meta: Project Aria, which is a research prototype of AI glasses, and Quest 3, a virtual-reality headset that has shipped millions of units. Ground-truth poses were obtained by a motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats, and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. In our experiments, we demonstrate the effectiveness of multi-view egocentric data for three popular tasks: 3D hand tracking, model-based 6DoF object pose estimation, and 3D lifting of unknown in-hand objects. The evaluated multi-view methods, whose benchmarking is uniquely enabled by HOT3D, significantly outperform their single-view counterparts.
- Abstract(参考訳): 我々は,エゴセントリックな手と物体追跡のための3DデータセットであるHOT3Dを紹介した。
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。
簡単なピックアップ、観察、パットダウンに加えて、被験者はキッチン、オフィス、リビングルーム環境に典型的な行動を行う。
記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。
データセットはMeta: Project Aria(AIメガネの研究プロトタイプ)と、何百万台ものユニットを出荷したバーチャルリアリティーヘッドセットQuest 3の2つのヘッドセットで記録されている。
また,手や物体に付着した小さな光学マーカーを用いたモーションキャプチャーシステムにより,地中トルースポーズが得られた。
ハンドアノテーションはUmeTrackとMANOフォーマットで提供され、オブジェクトは3Dメッシュで表現され、PBR材料は内部スキャナーで取得される。
実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
HOT3Dによってベンチマークが一意に有効化されている評価されたマルチビュー手法は、シングルビュー手法よりも大幅に優れていた。
関連論文リスト
- Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction [16.363878619678367]
ビデオ中の手や物体の3次元再構成とポーズトラッキングのためのデータキャプチャシステムと新しいデータセットHO-Capを導入する。
システムは複数のRGBDカメラとHoloLensヘッドセットをデータ収集に利用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。
ビデオ中の手や物体の形状やポーズをアノテートする半自動手法を提案し,手動ラベリングと比較してアノテーションの時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-10T23:25:19Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Multi-View Video-Based 3D Hand Pose Estimation [11.65577683784217]
提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
論文 参考訳(メタデータ) (2021-09-24T05:20:41Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations [0.0]
3Dオブジェクト検出の最先端を前進させるために、Objectronデータセットを紹介します。
データセットには、9つのカテゴリのポーズアノテーションを備えたオブジェクト中心の短いビデオが含まれ、14,819の注釈付きビデオに400万の注釈付き画像が含まれています。
論文 参考訳(メタデータ) (2020-12-18T00:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。