論文の概要: Learning Sequential Contexts using Transformer for 3D Hand Pose
Estimation
- arxiv url: http://arxiv.org/abs/2206.00171v1
- Date: Wed, 1 Jun 2022 01:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 07:14:12.889197
- Title: Learning Sequential Contexts using Transformer for 3D Hand Pose
Estimation
- Title(参考訳): 変圧器を用いた3次元手ポーズ推定のための逐次文脈学習
- Authors: Leyla Khaleghi, Joshua Marshall, Ali Etemad
- Abstract要約: 3Dハンドポーズ推定(3D Hand pose Estimation, HPE)は、任意の視覚入力から手関節を3Dで特定する過程である。
ハンドポーズ推定のための Transformer を用いた逐次学習手法を提案する。
実験の結果,SeTHPoseは時間的および角的な手列の変種でも良好に機能することがわかった。
- 参考スコア(独自算出の注目度): 16.457778420360537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D hand pose estimation (HPE) is the process of locating the joints of the
hand in 3D from any visual input. HPE has recently received an increased amount
of attention due to its key role in a variety of human-computer interaction
applications. Recent HPE methods have demonstrated the advantages of employing
videos or multi-view images, allowing for more robust HPE systems. Accordingly,
in this study, we propose a new method to perform Sequential learning with
Transformer for Hand Pose (SeTHPose) estimation. Our SeTHPose pipeline begins
by extracting visual embeddings from individual hand images. We then use a
transformer encoder to learn the sequential context along time or viewing
angles and generate accurate 2D hand joint locations. Then, a graph
convolutional neural network with a U-Net configuration is used to convert the
2D hand joint locations to 3D poses. Our experiments show that SeTHPose
performs well on both hand sequence varieties, temporal and angular. Also,
SeTHPose outperforms other methods in the field to achieve new state-of-the-art
results on two public available sequential datasets, STB and MuViHand.
- Abstract(参考訳): 3Dハンドポーズ推定(3D Hand pose Estimation, HPE)は、任意の視覚入力から手関節を3Dで特定する過程である。
HPEは最近、さまざまな人間とコンピュータのインタラクションアプリケーションにおいて重要な役割を担っているため、注目を集めている。
近年のHPE法はビデオやマルチビュー画像の利点を示しており、より堅牢なHPEシステムを実現している。
そこで本研究では,手ポーズ推定のための変圧器を用いた逐次学習手法を提案する。
sethposeパイプラインは、個々の手画像から視覚的な埋め込みを抽出することから始まります。
次に、トランスフォーマエンコーダを使用して、時間や角度に沿ってシーケンシャルなコンテキストを学習し、正確な2dハンドジョイント位置を生成する。
次に、U-Net構成のグラフ畳み込みニューラルネットワークを用いて、2D手関節位置を3Dポーズに変換する。
実験の結果,SeTHPoseは時間的および角的な手列の変種でも良好に機能することがわかった。
また、SeTHPoseは、STBとMuViHandの2つの公開シーケンシャルデータセットに対して、新しい最先端結果を達成するために、この分野の他の方法よりも優れている。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - TP3M: Transformer-based Pseudo 3D Image Matching with Reference Image [0.9831489366502301]
トランスフォーマーを用いた擬似3次元画像マッチング手法を提案する。
ソース画像から抽出した2D特徴を参照画像の助けを借りて3D特徴にアップグレードし、目的地画像から抽出した2D特徴にマッチする。
複数のデータセットに対する実験結果から, 提案手法は, ホモグラフィ推定, ポーズ推定, 視覚的ローカライゼーションのタスクにおいて, 最先端の課題を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-14T08:56:09Z) - The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting [38.678165053219644]
CLIP-Hand3Dと呼ばれるモノクローナル画像から新しい3Dハンドポーズ推定器を提案する。
ここでは,CLIPに基づくコントラスト学習パラダイムに従って,一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
いくつかのパブリックハンドベンチマークの実験では、提案したモデルがはるかに高速な推論速度を達成することが示されている。
論文 参考訳(メタデータ) (2023-09-28T03:40:37Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - HandsFormer: Keypoint Transformer for Monocular 3D Pose Estimation
ofHands and Object in Interaction [33.661745138578596]
単色画像からの密接な相互作用で両手の3次元ポーズを推定する頑健で正確な手法を提案する。
本手法は, 両手関節の電位2d位置をヒートマップの極値として抽出することから始まる。
これらの位置の外観と空間エンコーディングを変圧器への入力として使用し、注意メカニズムを利用して関節の正しい構成を整理します。
論文 参考訳(メタデータ) (2021-04-29T20:19:20Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。