論文の概要: HandsFormer: Keypoint Transformer for Monocular 3D Pose Estimation
ofHands and Object in Interaction
- arxiv url: http://arxiv.org/abs/2104.14639v1
- Date: Thu, 29 Apr 2021 20:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:43:58.476447
- Title: HandsFormer: Keypoint Transformer for Monocular 3D Pose Estimation
ofHands and Object in Interaction
- Title(参考訳): HandsFormer: インタラクションにおける手とオブジェクトのモノクロ3次元ポス推定のためのキーポイント変換器
- Authors: Shreyas Hampali, Sayan Deb Sarkar, Mahdi Rad, Vincent Lepetit
- Abstract要約: 単色画像からの密接な相互作用で両手の3次元ポーズを推定する頑健で正確な手法を提案する。
本手法は, 両手関節の電位2d位置をヒートマップの極値として抽出することから始まる。
これらの位置の外観と空間エンコーディングを変圧器への入力として使用し、注意メカニズムを利用して関節の正しい構成を整理します。
- 参考スコア(独自算出の注目度): 33.661745138578596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a robust and accurate method for estimating the 3D poses of two
hands in close interaction from a single color image. This is a very
challenging problem, as large occlusions and many confusions between the joints
may happen. Our method starts by extracting a set of potential 2D locations for
the joints of both hands as extrema of a heatmap. We do not require that all
locations correctly correspond to a joint, not that all the joints are
detected. We use appearance and spatial encodings of these locations as input
to a transformer, and leverage the attention mechanisms to sort out the correct
configuration of the joints and output the 3D poses of both hands. Our approach
thus allies the recognition power of a Transformer to the accuracy of
heatmap-based methods. We also show it can be extended to estimate the 3D pose
of an object manipulated by one or two hands. We evaluate our approach on the
recent and challenging InterHand2.6M and HO-3D datasets. We obtain 17%
improvement over the baseline. Moreover, we introduce the first dataset made of
action sequences of two hands manipulating an object fully annotated in 3D and
will make it publicly available.
- Abstract(参考訳): 単色画像からの密接な相互作用で両手の3次元ポーズを推定する頑健で正確な手法を提案する。
これは非常に難しい問題であり、大きな咬合と関節間の多くの混乱が起こる可能性がある。
本手法は, 両手関節の電位2d位置をヒートマップの極値として抽出することから始まる。
すべての位置がジョイントに対応している必要はなく、すべてのジョイントが検出されるわけではない。
我々はこれらの位置の外観と空間のエンコーディングをトランスの入力として使用し、注意機構を利用して関節の正確な構成をソートし、両手の3Dポーズを出力する。
提案手法は,変換器の認識能力をヒートマップ方式の精度に適応させる。
また,手が操作する物体の3dポーズを推定するために拡張できることを示した。
我々は最近のInterHand2.6MとHO-3Dデータセットに対するアプローチを評価した。
ベースラインよりも17%改善しています。
さらに、3Dで完全に注釈付けされたオブジェクトを操作する2つの手によるアクションシーケンスからなる最初のデータセットを導入し、公開する。
関連論文リスト
- A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting
Hand Pose Estimation from a Single RGB Image [46.5947382684857]
そこで本研究では,手動条件下での3次元手動ポーズ推定手法であるA2JをRGB領域に拡張することを提案する。
A2JはTransformerの非ローカルエンコーディングデコーディングフレームワークの下で進化し、A2J-Transformerを構築する。
挑戦的なInterHand 2.6Mの実験では、A2J-Transformerが最先端のモデルフリーのパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2023-04-07T13:30:36Z) - Ego2HandsPose: A Dataset for Egocentric Two-hand 3D Global Pose
Estimation [0.0]
Ego2HandsPoseは、目に見えないドメインでカラーベースの2Dトラッキングを可能にする最初のデータセットである。
本研究では,1)1つの画像を用いた3次元手ポーズアノテーションの実現,2)2次元手ポーズから3次元手ポーズへの自動変換,3)時間的整合性を伴う高精度な両手トラッキングを実現するためのパラメトリックフィッティングアルゴリズムの開発を行う。
論文 参考訳(メタデータ) (2022-06-10T07:50:45Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。
利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。
本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文 参考訳(メタデータ) (2020-12-17T18:59:58Z) - Two-hand Global 3D Pose Estimation Using Monocular RGB [0.0]
我々は、単眼のRGB入力画像のみを用いて、両手のグローバルな3D関節位置を推定する難しい課題に取り組む。
本稿では,手の位置を正確に把握する多段階畳み込みニューラルネットワークに基づくパイプラインを提案する。
RGBのみの入力を用いて両手の3Dハンドトラッキングを高精度に行う。
論文 参考訳(メタデータ) (2020-06-01T23:53:52Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。