論文の概要: HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation
- arxiv url: http://arxiv.org/abs/2307.16061v1
- Date: Sat, 29 Jul 2023 19:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:57:07.097836
- Title: HandMIM: Pose-Aware Self-Supervised Learning for 3D Hand Mesh Estimation
- Title(参考訳): HandMIM:3Dハンドメッシュ推定のためのPose-Aware Self-Supervised Learning
- Authors: Zuyan Liu, Gaojie Lin, Congyi Wang, Min Zheng, Feida Zhu
- Abstract要約: 本稿では,3次元ハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法はHandMIMと呼ばれ,様々なハンドメッシュ推定タスクにおいて高い性能を実現する。
- 参考スコア(独自算出の注目度): 5.888156950854715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With an enormous number of hand images generated over time, unleashing pose
knowledge from unlabeled images for supervised hand mesh estimation is an
emerging yet challenging topic. To alleviate this issue, semi-supervised and
self-supervised approaches have been proposed, but they are limited by the
reliance on detection models or conventional ResNet backbones. In this paper,
inspired by the rapid progress of Masked Image Modeling (MIM) in visual
classification tasks, we propose a novel self-supervised pre-training strategy
for regressing 3D hand mesh parameters. Our approach involves a unified and
multi-granularity strategy that includes a pseudo keypoint alignment module in
the teacher-student framework for learning pose-aware semantic class tokens.
For patch tokens with detailed locality, we adopt a self-distillation manner
between teacher and student network based on MIM pre-training. To better fit
low-level regression tasks, we incorporate pixel reconstruction tasks for
multi-level representation learning. Additionally, we design a strong pose
estimation baseline using a simple vanilla vision Transformer (ViT) as the
backbone and attach a PyMAF head after tokens for regression. Extensive
experiments demonstrate that our proposed approach, named HandMIM, achieves
strong performance on various hand mesh estimation tasks. Notably, HandMIM
outperforms specially optimized architectures, achieving 6.29mm and 8.00mm
PAVPE (Vertex-Point-Error) on challenging FreiHAND and HO3Dv2 test sets,
respectively, establishing new state-of-the-art records on 3D hand mesh
estimation.
- Abstract(参考訳): 膨大な数のハンドイメージが時間とともに生成される中、教師付きハンドメッシュ推定のためのラベルのないイメージからの知識を解放することは、新たな課題である。
この問題を解決するため、半教師と自己監督のアプローチが提案されているが、検出モデルや従来のresnetバックボーンに依存して制限されている。
本稿では,視覚的分類作業におけるマスク付き画像モデリング(MIM)の急速な進歩に触発されて,3Dハンドメッシュパラメータの回帰のための自己教師付き事前学習戦略を提案する。
提案手法は,ポーズ認識意味クラストークンを学習するための教師学習フレームワークに疑似キーポイントアライメントモジュールを含む,統一的かつ多元的戦略を含む。
詳細な局所性を持つパッチトークンに対しては,MIM事前学習に基づく教師と学生のネットワーク間の自己蒸留方式を採用する。
低レベル回帰タスクをより適させるため、画素再構成タスクを多レベル表現学習に組み込む。
さらに,単純なバニラビジョントランスフォーマ(vit)をバックボーンとして,強力なポーズ推定ベースラインを設計し,回帰用トークンの後にpymafヘッドをアタッチする。
提案手法であるHandMIMは,様々なハンドメッシュ推定タスクにおいて高い性能を発揮することを示す。
特にHandMIMは、FreiHANDテストセットとHO3Dv2テストセットに対して、それぞれ6.29mmと8.00mm PAVPE(Vertex-Point-Error)を達成し、3Dハンドメッシュ推定に新たな最先端記録を確立するなど、最適化されたアーキテクチャよりも優れている。
関連論文リスト
- Fine-Grained Multi-View Hand Reconstruction Using Inverse Rendering [11.228453237603834]
本稿では,逆レンダリングを利用して手ポーズを復元し,詳細を複雑化する多視点ハンドメッシュ再構成手法を提案する。
また、ハンドメッシュとテクスチャの両方を洗練させるために、新しいハンドアルベドとメッシュ(HAM)最適化モジュールも導入した。
提案手法は,再現精度とレンダリング品質の両面において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-08T07:28:24Z) - Mesh Represented Recycle Learning for 3D Hand Pose and Mesh Estimation [3.126179109712709]
本稿では,3次元ハンドポーズとメッシュ推定のためのメッシュ表現型リサイクル学習戦略を提案する。
具体的には、ハンドポーズとメッシュ推定モデルはまずパラメトリックな3Dハンドアノテーションを予測する。
次に、自己推定手メッシュ表現を用いて合成手画像を生成する。
第3に、合成手画像は同じモデルに再び入力される。
論文 参考訳(メタデータ) (2023-10-18T09:50:09Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Hand Image Understanding via Deep Multi-Task Learning [34.515382305252814]
単一のRGB画像から手動物体の包括的情報を抽出する新しい手動画像理解(HIU)フレームワークを提案する。
提案手法は, 様々な広く使用されているデータセットに対する最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-24T16:28:06Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。