論文の概要: Pre-Training for 3D Hand Pose Estimation with Contrastive Learning on Large-Scale Hand Images in the Wild
- arxiv url: http://arxiv.org/abs/2409.09714v1
- Date: Sun, 15 Sep 2024 12:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:38:20.990328
- Title: Pre-Training for 3D Hand Pose Estimation with Contrastive Learning on Large-Scale Hand Images in the Wild
- Title(参考訳): 野生における大規模ハンドイメージに対するコントラスト学習による3次元ハンドポース推定の事前評価
- Authors: Nie Lin, Takehiko Ohkawa, Mingfang Zhang, Yifei Huang, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: 我々は,ハンドCLRと呼ばれる3次元手ポーズ推定器の事前学習に適した,手動画像に基づくコントラスト学習フレームワークを提案する。
実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。
- 参考スコア(独自算出の注目度): 24.154209506904355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a contrastive learning framework based on in-the-wild hand images tailored for pre-training 3D hand pose estimators, dubbed HandCLR. Pre-training on large-scale images achieves promising results in various tasks, but prior 3D hand pose pre-training methods have not fully utilized the potential of diverse hand images accessible from in-the-wild videos. To facilitate scalable pre-training, we first prepare an extensive pool of hand images from in-the-wild videos and design our method with contrastive learning. Specifically, we collected over 2.0M hand images from recent human-centric videos, such as 100DOH and Ego4D. To extract discriminative information from these images, we focus on the similarity of hands; pairs of similar hand poses originating from different samples, and propose a novel contrastive learning method that embeds similar hand pairs closer in the latent space. Our experiments demonstrate that our method outperforms conventional contrastive learning approaches that produce positive pairs sorely from a single image with data augmentation. We achieve significant improvements over the state-of-the-art method in various datasets, with gains of 15% on FreiHand, 10% on DexYCB, and 4% on AssemblyHands.
- Abstract(参考訳): 我々は,ハンドCLRと呼ばれる3次元手ポーズ推定器の事前学習に適した,手動画像に基づくコントラスト学習フレームワークを提案する。
大規模画像の事前訓練は,様々なタスクにおいて有望な結果をもたらすが,先行3次元手ポーズによる事前訓練手法では,映像内からアクセス可能な多様な手画像の可能性を十分に活用できていない。
拡張性のある事前学習を容易にするため、まず、Wild ビデオから手動画像の広範なプールを作成し、コントラスト学習による手法を設計する。
具体的には、100DOHやEgo4Dといった最近の人間中心のビデオから、200万以上の手画像を収集しました。
これらの画像から識別的情報を抽出するために、異なるサンプルから派生した類似手ポーズのペアに着目し、類似手ペアを潜伏空間に近接して埋め込む新しいコントラスト学習法を提案する。
実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。
各種データセットの最先端手法に対して,FreiHandが15%,DexYCBが10%,AmblyHandsが4%向上した。
関連論文リスト
- AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand
Pose Estimation [26.261767086366866]
正確な3Dハンドポーズアノテーションを備えた大規模ベンチマークデータセットである AssemblyHands を提示する。
AssemblyHandsは490Kのエゴセントリックなイメージを含む3.0Mの注釈付きイメージを提供する。
我々の研究は、高品質の手のポーズが、行動を認識する能力を直接的に改善することを示しています。
論文 参考訳(メタデータ) (2023-04-24T17:52:57Z) - Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation [5.205975578123176]
本稿では,手ポーズ推定フレームワークのためのシンプルな画像自由領域一般化手法を提案する。
テキスト記述から特徴を付加することにより,手ポーズ推定ネットワークの画像特徴の操作を試みる。
次に、操作された画像特徴を利用して、コントラスト学習フレームワークを介して、ポーズ推定ネットワークをトレーニングする。
論文 参考訳(メタデータ) (2022-10-30T09:32:37Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z) - Silhouette-Net: 3D Hand Pose Estimation from Silhouettes [16.266199156878056]
既存のアプローチは主に、モノクラーRGB、マルチビューRGB、ディープ、ポイントクラウドなど、異なる入力モダリティと設定を考慮に入れている。
暗黙の奥行き認識からガイダンスを自動的に学習し、エンドツーエンドのトレーニングを通じてポーズのあいまいさを解決する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2019-12-28T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。