論文の概要: Consistent 3D Hand Reconstruction in Video via self-supervised Learning
- arxiv url: http://arxiv.org/abs/2201.09548v1
- Date: Mon, 24 Jan 2022 09:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 13:59:39.249507
- Title: Consistent 3D Hand Reconstruction in Video via self-supervised Learning
- Title(参考訳): 自己教師型学習による映像の連続3次元ハンドコンストラクション
- Authors: Zhigang Tu, Zhisheng Huang, Yujin Chen, Di Kang, Linchao Bao, Bisheng
Yang, and Junsong Yuan
- Abstract要約: 本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
- 参考スコア(独自算出の注目度): 67.55449194046996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for reconstructing accurate and consistent 3D hands from
a monocular video. We observe that detected 2D hand keypoints and the image
texture provide important cues about the geometry and texture of the 3D hand,
which can reduce or even eliminate the requirement on 3D hand annotation. Thus
we propose ${\rm {S}^{2}HAND}$, a self-supervised 3D hand reconstruction model,
that can jointly estimate pose, shape, texture, and the camera viewpoint from a
single RGB input through the supervision of easily accessible 2D detected
keypoints. We leverage the continuous hand motion information contained in the
unlabeled video data and propose ${\rm {S}^{2}HAND(V)}$, which uses a set of
weights shared ${\rm {S}^{2}HAND}$ to process each frame and exploits
additional motion, texture, and shape consistency constrains to promote more
accurate hand poses and more consistent shapes and textures. Experiments on
benchmark datasets demonstrate that our self-supervised approach produces
comparable hand reconstruction performance compared with the recent
full-supervised methods in single-frame as input setup, and notably improves
the reconstruction accuracy and consistency when using video training data.
- Abstract(参考訳): モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは,3次元手指の形状やテクスチャに関する重要な手がかりとなり,3次元手指アノテーションの要件を低減あるいは排除できる。
そこで本稿では,RGB入力1点からのポーズ,形状,テクスチャ,カメラ視点を,容易にアクセス可能な2D検出キーポイントの監視を通じて共同で推定できる3Dハンド再構成モデルである${\rm {S}^{2}HAND}$を提案する。
我々は、ラベル付けされていないビデオデータに含まれる連続的な手の動き情報を活用し、各フレームを処理するために共有される重みのセットである${\rm {S}^{2}HAND(V)}$を提案し、さらに動き、テクスチャ、形状の整合性制約を利用して、より正確な手ポーズやより整合性のある形状やテクスチャを促進する。
ベンチマークデータセットを用いた実験により、我々の自己教師付きアプローチは、入力設定としてシングルフレームにおける最近のフル教師付き手法と比較して、手再構成性能に匹敵する結果が得られた。
関連論文リスト
- Reconstructing Hands in 3D with Transformers [64.15390309553892]
単分子入力から3次元の手を再構成する手法を提案する。
ハンドメッシュリカバリに対する我々のアプローチであるHaMeRは、完全にトランスフォーマーベースのアーキテクチャを踏襲し、以前の作業に比べて精度と堅牢性を大幅に向上させながら、ハンドを解析できる。
論文 参考訳(メタデータ) (2023-12-08T18:59:07Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose
Estimation from a Single Depth Map [72.93634777578336]
弱教師付き方式で3次元畳み込みを訓練した新しいアーキテクチャを提案する。
提案されたアプローチは、SynHand5Mデータセット上で、アートの状態を47.8%改善する。
我々の手法は、NYUとBigHand2.2Mデータセットで視覚的により合理的で現実的な手形を生成する。
論文 参考訳(メタデータ) (2020-04-03T14:27:16Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。