論文の概要: A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting
Hand Pose Estimation from a Single RGB Image
- arxiv url: http://arxiv.org/abs/2304.03635v1
- Date: Fri, 7 Apr 2023 13:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 11:55:41.394187
- Title: A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting
Hand Pose Estimation from a Single RGB Image
- Title(参考訳): a2j-transformer:単一のrgb画像から3次元相互作用ハンドポーズ推定のためのアンカー対ジョイントランスネットワーク
- Authors: Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng,
Zhiguo Cao, and Joey Tianyi Zhou
- Abstract要約: そこで本研究では,手動条件下での3次元手動ポーズ推定手法であるA2JをRGB領域に拡張することを提案する。
A2JはTransformerの非ローカルエンコーディングデコーディングフレームワークの下で進化し、A2J-Transformerを構築する。
挑戦的なInterHand 2.6Mの実験では、A2J-Transformerが最先端のモデルフリーのパフォーマンスを達成できることが示されている。
- 参考スコア(独自算出の注目度): 46.5947382684857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D interacting hand pose estimation from a single RGB image is a challenging
task, due to serious self-occlusion and inter-occlusion towards hands,
confusing similar appearance patterns between 2 hands, ill-posed joint position
mapping from 2D to 3D, etc.. To address these, we propose to extend A2J-the
state-of-the-art depth-based 3D single hand pose estimation method-to RGB
domain under interacting hand condition. Our key idea is to equip A2J with
strong local-global aware ability to well capture interacting hands' local fine
details and global articulated clues among joints jointly. To this end, A2J is
evolved under Transformer's non-local encoding-decoding framework to build
A2J-Transformer. It holds 3 main advantages over A2J. First, self-attention
across local anchor points is built to make them global spatial context aware
to better capture joints' articulation clues for resisting occlusion. Secondly,
each anchor point is regarded as learnable query with adaptive feature learning
for facilitating pattern fitting capacity, instead of having the same local
representation with the others. Last but not least, anchor point locates in 3D
space instead of 2D as in A2J, to leverage 3D pose prediction. Experiments on
challenging InterHand 2.6M demonstrate that, A2J-Transformer can achieve
state-of-the-art model-free performance (3.38mm MPJPE advancement in 2-hand
case) and can also be applied to depth domain with strong generalization.
- Abstract(参考訳): 1枚のRGB画像からの3Dインタラクションによる手ポーズ推定は、手に対する深刻な自己閉塞と相互閉塞、類似した外観パターンの混乱、2Dから3Dへの関節位置マッピングの不備など、難しい作業である。
そこで本研究では,手動条件下での3次元手動ポーズ推定手法であるA2JをRGB領域に拡張することを提案する。
我々の重要なアイデアは、a2jに、相互作用する手の局所的な詳細と関節間のグローバルな手掛かりをうまく捉えられる強力な局所的グローバル認識能力を提供することです。
この目的のために、A2JはTransformerの非ローカルエンコーディングデコーディングフレームワークの下で進化し、A2J-Transformerを構築する。
A2Jよりも3つの大きな利点がある。
まず、局所アンカーポイントを横断するセルフアテンションが構築され、咬合に抵抗するための関節の調音手がかりをよりよく捉えるために、グローバルな空間コンテキストを認識する。
第2に、各アンカーポイントは、他のものと同一の局所表現を持つのではなく、パターン適合能力を促進するための適応的特徴学習を備えた学習可能なクエリとみなされる。
最後に、アンカーポイントはA2Jのように2Dではなく3D空間に位置し、3Dポーズ予測を利用する。
interhand 2.6m への挑戦実験では、a2j-transformer は最先端のモデルフリーパフォーマンス (3.38mm mpjpe advancement) を達成でき、強力な一般化を持つ深度領域にも適用可能であることが示されている。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Decoupled Iterative Refinement Framework for Interacting Hands
Reconstruction from a Single RGB Image [30.24438569170251]
画素アライメント・ハンド再構成を実現するために,分離された反復的精細化フレームワークを提案する。
提案手法は、InterHand2.6Mデータセットにおいて、既存の2手再構成手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-02-05T15:46:57Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - A hybrid classification-regression approach for 3D hand pose estimation
using graph convolutional networks [1.0152838128195467]
目的ごとの関係制約を学習する2段階のGCNベースのフレームワークを提案する。
第1フェーズは2D/3D空間を量子化し、その局所性に基づいて関節を2D/3Dブロックに分類する。
第2段階ではGCNベースのモジュールを使用し、隣り合う適応アルゴリズムを用いて関節関係を決定する。
論文 参考訳(メタデータ) (2021-05-23T10:09:10Z) - HandsFormer: Keypoint Transformer for Monocular 3D Pose Estimation
ofHands and Object in Interaction [33.661745138578596]
単色画像からの密接な相互作用で両手の3次元ポーズを推定する頑健で正確な手法を提案する。
本手法は, 両手関節の電位2d位置をヒートマップの極値として抽出することから始まる。
これらの位置の外観と空間エンコーディングを変圧器への入力として使用し、注意メカニズムを利用して関節の正しい構成を整理します。
論文 参考訳(メタデータ) (2021-04-29T20:19:20Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。