論文の概要: SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training
- arxiv url: http://arxiv.org/abs/2502.15251v1
- Date: Fri, 21 Feb 2025 07:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:53.296758
- Title: SiMHand: Mining Similar Hands for Large-Scale 3D Hand Pose Pre-training
- Title(参考訳): SiMHand:大規模な3Dハンドポース事前トレーニングのための類似のハンドマイニング
- Authors: Nie Lin, Takehiko Ohkawa, Yifei Huang, Mingfang Zhang, Minjie Cai, Ming Li, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: In-the-wild hand image を用いた3次元手ポーズ推定の事前学習のためのフレームワークを提案する。
特徴空間に類似したペアを埋め込む新しいコントラスト学習法を提案する。
実験により,本手法が従来のコントラスト学習手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 28.5711802695704
- License:
- Abstract: We present a framework for pre-training of 3D hand pose estimation from in-the-wild hand images sharing with similar hand characteristics, dubbed SimHand. Pre-training with large-scale images achieves promising results in various tasks, but prior methods for 3D hand pose pre-training have not fully utilized the potential of diverse hand images accessible from in-the-wild videos. To facilitate scalable pre-training, we first prepare an extensive pool of hand images from in-the-wild videos and design our pre-training method with contrastive learning. Specifically, we collect over 2.0M hand images from recent human-centric videos, such as 100DOH and Ego4D. To extract discriminative information from these images, we focus on the similarity of hands: pairs of non-identical samples with similar hand poses. We then propose a novel contrastive learning method that embeds similar hand pairs closer in the feature space. Our method not only learns from similar samples but also adaptively weights the contrastive learning loss based on inter-sample distance, leading to additional performance gains. Our experiments demonstrate that our method outperforms conventional contrastive learning approaches that produce positive pairs sorely from a single image with data augmentation. We achieve significant improvements over the state-of-the-art method (PeCLR) in various datasets, with gains of 15% on FreiHand, 10% on DexYCB, and 4% on AssemblyHands. Our code is available at https://github.com/ut-vision/SiMHand.
- Abstract(参考訳): そこで本研究では,SimHandと呼ばれる手動画像と類似の手動特性を共用した3次元手動ポーズ推定の事前学習フレームワークを提案する。
大規模画像による事前訓練は,様々なタスクにおいて有望な結果をもたらすが,従来の3次元手ポーズ事前訓練手法では,現場のビデオからアクセス可能な多様な手画像の可能性を十分に活用できていない。
拡張性のある事前学習を容易にするため、まず、Wild ビデオから手動画像の広範なプールを作成し、コントラスト学習による事前学習手法を設計する。
具体的には、100DOHやEgo4Dといった最近の人間中心のビデオから、200万以上の手画像を収集します。
これらの画像から識別情報を抽出するために, 類似した手ポーズを持つ非識別サンプルのペアである, 手の類似性に着目した。
次に,特徴空間に類似したペアを埋め込む新しいコントラスト学習法を提案する。
提案手法は,類似したサンプルから学習するだけでなく,サンプル間距離に基づいて学習損失を適応的に重み付けし,さらなる性能向上をもたらす。
実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。
FreiHandは15%,DexYCBは10%,AmblyHandsは4%であった。
私たちのコードはhttps://github.com/ut-vision/SiMHand.comで利用可能です。
関連論文リスト
- Pre-Training for 3D Hand Pose Estimation with Contrastive Learning on Large-Scale Hand Images in the Wild [24.154209506904355]
我々は,ハンドCLRと呼ばれる3次元手ポーズ推定器の事前学習に適した,手動画像に基づくコントラスト学習フレームワークを提案する。
実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-09-15T12:45:15Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation [5.205975578123176]
本稿では,手ポーズ推定フレームワークのためのシンプルな画像自由領域一般化手法を提案する。
テキスト記述から特徴を付加することにより,手ポーズ推定ネットワークの画像特徴の操作を試みる。
次に、操作された画像特徴を利用して、コントラスト学習フレームワークを介して、ポーズ推定ネットワークをトレーニングする。
論文 参考訳(メタデータ) (2022-10-30T09:32:37Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Silhouette-Net: 3D Hand Pose Estimation from Silhouettes [16.266199156878056]
既存のアプローチは主に、モノクラーRGB、マルチビューRGB、ディープ、ポイントクラウドなど、異なる入力モダリティと設定を考慮に入れている。
暗黙の奥行き認識からガイダンスを自動的に学習し、エンドツーエンドのトレーニングを通じてポーズのあいまいさを解決する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2019-12-28T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。