論文の概要: Reconstructing Hands in 3D with Transformers
- arxiv url: http://arxiv.org/abs/2312.05251v1
- Date: Fri, 8 Dec 2023 18:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:17:05.677026
- Title: Reconstructing Hands in 3D with Transformers
- Title(参考訳): 変圧器を用いた3次元手作り
- Authors: Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa,
David Fouhey, Jitendra Malik
- Abstract要約: 単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
- 参考スコア(独自算出の注目度): 64.15390309553892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an approach that can reconstruct hands in 3D from monocular input.
Our approach for Hand Mesh Recovery, HaMeR, follows a fully transformer-based
architecture and can analyze hands with significantly increased accuracy and
robustness compared to previous work. The key to HaMeR's success lies in
scaling up both the data used for training and the capacity of the deep network
for hand reconstruction. For training data, we combine multiple datasets that
contain 2D or 3D hand annotations. For the deep model, we use a large scale
Vision Transformer architecture. Our final model consistently outperforms the
previous baselines on popular 3D hand pose benchmarks. To further evaluate the
effect of our design in non-controlled settings, we annotate existing
in-the-wild datasets with 2D hand keypoint annotations. On this newly collected
dataset of annotations, HInt, we demonstrate significant improvements over
existing baselines. We make our code, data and models available on the project
website: https://geopavlakos.github.io/hamer/.
- Abstract(参考訳): 単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリのアプローチであるhamerは,完全なトランスフォーマーベースのアーキテクチャに従って,従来の作業に比べて精度と堅牢性が著しく向上した手の分析を行う。
HaMeRの成功の鍵は、トレーニングに使用されるデータと、手作業で使用するディープネットワークの容量のスケールアップである。
トレーニングデータには、2dまたは3dハンドアノテーションを含む複数のデータセットを組み合わせる。
ディープラーニングモデルでは、大規模なVision Transformerアーキテクチャを使用します。
我々の最終モデルは、人気のある3Dハンドポーズベンチマークにおける以前のベースラインを一貫して上回る。
非制御設定における設計の効果をさらに評価するために、2dハンドキーポイントアノテーションを用いた既存のインザワイルドデータセットに注釈を付ける。
新たに収集されたアノテーションのデータセットであるHIntでは、既存のベースラインよりも大幅に改善されている。
コード、データ、モデルはプロジェクトのwebサイト(https://geopavlakos.github.io/hamer/)で利用可能です。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand
Pose Estimation [32.12879364117658]
1枚のRGB画像から3Dハンドポーズを推定することは困難である。
我々は、任意のターゲットメッシュ基底真理に一致する剛性メッシュモデルを可能にするスピンマッチングアルゴリズムを設計する。
提案手法は,提案するデータセットを用いて手ポーズ推定器の訓練が性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-12-06T07:55:08Z) - BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass
Networks [37.65510556305611]
本稿では,2次元シードステージ,3次元リフトステージ,メッシュ生成ステージの3段階からなる,エンドツーエンドで学習可能なモデルBiHandを紹介する。
BiHandの出力では、ネットワークから予測される関節回転と形状パラメータを用いて全手メッシュを復元する。
本モデルでは,最先端手法と比較して精度が向上し,いくつかの厳しい条件下で魅力的な3Dハンドメッシュを作成できる。
論文 参考訳(メタデータ) (2020-08-12T03:13:17Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。