論文の概要: End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image
- arxiv url: http://arxiv.org/abs/2204.08154v3
- Date: Sat, 6 May 2023 08:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 01:03:43.136660
- Title: End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image
- Title(参考訳): 単一RGB画像からのエンド・ツー・エンド弱教師付きシングルステージ3次元ハンドメッシュ再構成
- Authors: Jinwei Ren, Jianke Zhu, and Jialiang Zhang
- Abstract要約: 複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
- 参考スコア(独自算出の注目度): 9.238322841389994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the challenging task of simultaneously locating
and recovering multiple hands from a single 2D image. Previous studies either
focus on single hand reconstruction or solve this problem in a multi-stage way.
Moreover, the conventional two-stage pipeline firstly detects hand areas, and
then estimates 3D hand pose from each cropped patch. To reduce the
computational redundancy in preprocessing and feature extraction, for the first
time, we propose a concise but efficient single-stage pipeline for multi-hand
reconstruction. Specifically, we design a multi-head auto-encoder structure,
where each head network shares the same feature map and outputs the hand
center, pose and texture, respectively. Besides, we adopt a weakly-supervised
scheme to alleviate the burden of expensive 3D real-world data annotations. To
this end, we propose a series of losses optimized by a stage-wise training
scheme, where a multi-hand dataset with 2D annotations is generated based on
the publicly available single hand datasets. In order to further improve the
accuracy of the weakly supervised model, we adopt several feature consistency
constraints in both single and multiple hand settings. Specifically, the
keypoints of each hand estimated from local features should be consistent with
the re-projected points predicted from global features. Extensive experiments
on public benchmarks including FreiHAND, HO3D, InterHand2.6M and RHD
demonstrate that our method outperforms the state-of-the-art model-based
methods in both weakly-supervised and fully-supervised manners. The code and
models are available at {https://github.com/zijinxuxu/SMHR}.
- Abstract(参考訳): 本論文では,2次元画像から複数の手を同時に位置決めして復元する課題について検討する。
従来の研究では、片手再建に焦点をあてるか、多段階的な方法でこの問題を解決するかのどちらかであった。
さらに, 従来の2段階のパイプラインでは, まず手の位置を検知し, 切り抜かれたパッチから3dハンドポーズを推定する。
プリプロセッシングと特徴抽出における計算冗長性を低減するため,マルチハンド再構成のための簡潔かつ効率的な単一ステージパイプラインを提案する。
具体的には,マルチヘッドオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,それぞれ手の中心,ポーズ,テクスチャを出力する。
さらに,高額な3次元実世界のデータアノテーションの負担を軽減するために,弱教師付き方式を採用する。
そこで我々は,2次元アノテーションを持つマルチハンドデータセットを,公開可能なシングルハンドデータセットに基づいて生成するステージワイズトレーニングスキームによって最適化された一連の損失を提案する。
弱教師付きモデルの精度をさらに向上するため、単手と複数手の設定にいくつかの特徴整合性制約を適用した。
具体的には、局所特徴から推定される各手の各キーポイントは、グローバル特徴から予測される再投影されたポイントと一致すべきである。
FreiHAND, HO3D, InterHand2.6M, RHDなどの公開ベンチマーク実験により, 本手法は, 弱教師付きおよび完全教師付き両方の方法で, 最先端のモデルベース手法よりも優れていることを示した。
コードとモデルは、https://github.com/zijinxuxu/SMHR}で入手できる。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks [33.9893684177763]
自己閉塞と指の関節は推定に重大な問題を引き起こす。
我々は、手の体積を連続多様体として表す占有ネットワークを利用する。
我々は,手動交差点の可能性を最小限に抑えるために,交差点損失関数を設計する。
論文 参考訳(メタデータ) (2024-04-08T11:32:26Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - HandFoldingNet: A 3D Hand Pose Estimation Network Using
Multiscale-Feature Guided Folding of a 2D Hand Skeleton [4.1954750695245835]
本稿では,高精度かつ効率的なポーズ推定器であるHandFoldingNetを提案する。
提案モデルでは, 折り畳み型デコーダを用いて, 与えられた2次元手骨を対応する関節座標に折り畳む。
実験結果から,提案モデルが既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-12T05:52:44Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。