論文の概要: H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition
- arxiv url: http://arxiv.org/abs/2104.11181v1
- Date: Thu, 22 Apr 2021 17:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:51:30.806152
- Title: H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition
- Title(参考訳): H2O:初対人対話認識のための2つの手操作物体
- Authors: Taein Kwon, Bugra Tekin, Jan Stuhmer, Federica Bogo, Marc Pollefeys
- Abstract要約: 両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
- 参考スコア(独自算出の注目度): 70.46638409156772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present, for the first time, a comprehensive framework for egocentric
interaction recognition using markerless 3D annotations of two hands
manipulating objects. To this end, we propose a method to create a unified
dataset for egocentric 3D interaction recognition. Our method produces
annotations of the 3D pose of two hands and the 6D pose of the manipulated
objects, along with their interaction labels for each frame. Our dataset,
called H2O (2 Hands and Objects), provides synchronized multi-view RGB-D
images, interaction labels, object classes, ground-truth 3D poses for left &
right hands, 6D object poses, ground-truth camera poses, object meshes and
scene point clouds. To the best of our knowledge, this is the first benchmark
that enables the study of first-person actions with the use of the pose of both
left and right hands manipulating objects and presents an unprecedented level
of detail for egocentric 3D interaction recognition. We further propose the
first method to predict interaction classes by estimating the 3D pose of two
hands and the 6D pose of the manipulated objects, jointly from RGB images. Our
method models both inter- and intra-dependencies between both hands and objects
by learning the topology of a graph convolutional network that predicts
interactions. We show that our method facilitated by this dataset establishes a
strong baseline for joint hand-object pose estimation and achieves
state-of-the-art accuracy for first person interaction recognition.
- Abstract(参考訳): 我々は,両手操作対象のマーカーレス3Dアノテーションを用いた,エゴセントリックな対話認識のための包括的フレームワークを初めて提示する。
そこで本研究では,エゴセントリックな3Dインタラクション認識のための統合データセットを作成する手法を提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
我々の知る限り、このベンチマークは、左右両手の両方の操作対象のポーズを用いて、一人称行動の研究を可能にし、エゴセントリックな3Dインタラクション認識のための前例のないレベルの詳細を提示する最初のベンチマークである。
さらに,RGB画像から両手の3Dポーズと操作対象の6Dポーズを推定し,対話クラスを予測する手法を提案する。
本手法は,対話を予測するグラフ畳み込みネットワークのトポロジーを学習することにより,手と物体の相互依存性をモデル化する。
本手法は,手動ポーズ推定のための強力なベースラインを確立し,一対一のインタラクション認識のための最先端の精度を実現する。
関連論文リスト
- HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - AffordPose: A Large-scale Dataset of Hand-Object Interactions with
Affordance-driven Hand Pose [16.65196181081623]
AffordPoseは、手動ポーズによる手動オブジェクトインタラクションの大規模データセットである。
計26.7Kのハンドオブジェクトインタラクションを収集し、それぞれ3次元オブジェクト形状、部分レベルアベイランスラベル、手動で調整した手ポーズを含む。
包括的データ分析は、手-物間相互作用の共通特性と多様性を示している。
論文 参考訳(メタデータ) (2023-09-16T10:25:28Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in
Time [22.574069344246052]
本研究では,3次元手とオブジェクトのポーズを半教師付き学習で推定する統合フレームワークを提案する。
我々は,手とオブジェクトの表現を変換器で明示的な文脈的推論を行う,共同学習フレームワークを構築した。
提案手法は,実世界の挑戦的データセットにおける手振り推定を改良するだけでなく,1インスタンスあたりの接地構造がより少ないオブジェクトポーズも大幅に改善する。
論文 参考訳(メタデータ) (2021-06-09T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。