論文の概要: SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild
- arxiv url: http://arxiv.org/abs/2603.28760v1
- Date: Mon, 30 Mar 2026 17:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.557463
- Title: SHOW3D: Capturing Scenes of 3D Hands and Objects in the Wild
- Title(参考訳): SHOW3D: 野生の3Dハンドとオブジェクトのシーンをキャプチャする
- Authors: Patrick Rim, Kevin Harris, Braden Copple, Shangchen Han, Xu Xie, Ivan Shugurov, Sizhe An, He Wen, Alex Wong, Tomas Hodan, Kun He,
- Abstract要約: 既存のハンドオブジェクトインタラクションデータセットは、主にコントロールされたスタジオ設定でキャプチャされる。
そこで本研究では,非拘束の移動性を実現するためのマーカーレスマルチカメラシステムを提案する。
SHOW3Dは3Dアノテーションを付加した最初の大規模データセットであり、様々な現実世界環境におけるオブジェクトとのインタラクションを示す。
- 参考スコア(独自算出の注目度): 17.556955295385908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate 3D understanding of human hands and objects during manipulation remains a significant challenge for egocentric computer vision. Existing hand-object interaction datasets are predominantly captured in controlled studio settings, which limits both environmental diversity and the ability of models trained on such data to generalize to real-world scenarios. To address this challenge, we introduce a novel marker-less multi-camera system that allows for nearly unconstrained mobility in genuinely in-the-wild conditions, while still having the ability to generate precise 3D annotations of hands and objects. The capture system consists of a lightweight, back-mounted, multi-camera rig that is synchronized and calibrated with a user-worn VR headset. For 3D ground-truth annotation of hands and objects, we develop an ego-exo tracking pipeline and rigorously evaluate its quality. Finally, we present SHOW3D, the first large-scale dataset with 3D annotations that show hands interacting with objects in diverse real-world environments, including outdoor settings. Our approach significantly reduces the fundamental trade-off between environmental realism and accuracy of 3D annotations, which we validate with experiments on several downstream tasks. show3d-dataset.github.io
- Abstract(参考訳): 操作中の人間の手や物体の正確な3D理解は、自我中心のコンピュータビジョンにとって重要な課題である。
既存のハンドオブジェクトインタラクションデータセットは、主にコントロールされたスタジオ設定でキャプチャされ、環境の多様性と、そのようなデータに基づいてトレーニングされたモデルが現実のシナリオに一般化する能力の両方を制限する。
この課題に対処するために,手や物体の正確な3Dアノテーションを生成する能力を持ちながら,実際には非拘束状態の移動をほぼ抑制できる新しいマーカーレスマルチカメラシステムを提案する。
撮影システムは軽量でバックマウントのマルチカメラリグで、ユーザーのVRヘッドセットと同期してキャリブレーションされる。
手や物体の3次元地平線アノテーションに対して,エゴエクソ追跡パイプラインを開発し,その品質を厳格に評価する。
最後に、屋外設定を含むさまざまな現実世界環境において、オブジェクトとのインタラクションを示す3Dアノテーションを備えた最初の大規模データセットであるSHOW3Dを紹介する。
提案手法は, 環境リアリズムと3次元アノテーションの精度の基本的なトレードオフを著しく低減し, 下流タスクの実験で検証する。
show3d-dataset.github.io
関連論文リスト
- PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos [90.4816165292854]
既存の学習ベースの手法は、高品質な3Dデータと手動アノテーションによる教師付きトレーニングに大きく依存している。
そこで本研究では,手動物体間相互作用からオブジェクトの調音を直接抽出する手法であるPAWSを提案する。
提案手法は,HD-EPICやArti4Dを含む公開データセット上で評価し,ベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2026-03-26T15:16:51Z) - Ego-Exo 3D Hand Tracking in the Wild with a Mobile Multi-Camera Rig [14.496137517475743]
高精度な3次元手や物体を撮像する新しいマーカーレスマルチカメラシステムを提案する。
軽量でバックマウントのキャプチャ・リグと8台のエキゾセントリックカメラ、そして2つのエゴセントリックなビューを提供するMeta Quest 3ヘッドセットを組み合わせています。
我々は、同期したマルチビュー画像と正確な3Dハンドポーズを備えた注釈付きデータセットを収集する。
論文 参考訳(メタデータ) (2025-10-02T22:26:03Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos [9.513100627302755]
データセットには833分(3.7M+画像)以上の記録があり、19人の被験者が33の多様な剛体物体と相互作用している。
記録には、エゴセントリックなマルチビューRGB/モノクロ画像、目視信号、シーンポイント雲、カメラ、手、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれている。
実験では,3次元ハンドトラッキング,モデルベース6DoFオブジェクトポーズ推定,未知のインハンドオブジェクトの3次元持ち上げという3つの一般的なタスクに対して,マルチビュー・エゴセントリックデータの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-28T14:09:42Z) - Introducing HOT3D: An Egocentric Dataset for 3D Hand and Object Tracking [7.443420525809604]
我々は,自我中心手と物体追跡のためのデータセットであるHOT3Dを3Dで導入する。
データセットはマルチビューのRGB/モノクロ画像ストリームを833分以上提供し、19人の被験者が33の多様な剛体オブジェクトと対話していることを示している。
単純なピックアップ/オブザーバ/プットダウンアクションに加えて、HOT3Dはキッチン、オフィス、リビングルーム環境における典型的なアクションに似たシナリオを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T21:38:17Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。