論文の概要: CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting
- arxiv url: http://arxiv.org/abs/2309.16140v1
- Date: Thu, 28 Sep 2023 03:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:07:59.026515
- Title: CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware
Prompting
- Title(参考訳): CLIP-Hand3D:コンテキスト認識による3Dハンドポース推定の爆発
- Authors: Shaoxiang Guo, Qing Cai, Lin Qi, Junyu Dong
- Abstract要約: CLIP-Hand3Dと呼ばれるモノクローナル画像から新しい3Dハンドポーズ推定器を提案する。
ここでは,CLIPに基づくコントラスト学習パラダイムに従って,一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
いくつかのパブリックハンドベンチマークの実験では、提案したモデルがはるかに高速な推論速度を達成することが示されている。
- 参考スコア(独自算出の注目度): 38.678165053219644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) starts to emerge in many
computer vision tasks and has achieved promising performance. However, it
remains underexplored whether CLIP can be generalized to 3D hand pose
estimation, as bridging text prompts with pose-aware features presents
significant challenges due to the discrete nature of joint positions in 3D
space. In this paper, we make one of the first attempts to propose a novel 3D
hand pose estimator from monocular images, dubbed as CLIP-Hand3D, which
successfully bridges the gap between text prompts and irregular detailed pose
distribution. In particular, the distribution order of hand joints in various
3D space directions is derived from pose labels, forming corresponding text
prompts that are subsequently encoded into text representations.
Simultaneously, 21 hand joints in the 3D space are retrieved, and their spatial
distribution (in x, y, and z axes) is encoded to form pose-aware features.
Subsequently, we maximize semantic consistency for a pair of pose-text features
following a CLIP-based contrastive learning paradigm. Furthermore, a
coarse-to-fine mesh regressor is designed, which is capable of effectively
querying joint-aware cues from the feature pyramid. Extensive experiments on
several public hand benchmarks show that the proposed model attains a
significantly faster inference speed while achieving state-of-the-art
performance compared to methods utilizing the similar scale backbone.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)は多くのコンピュータビジョンタスクで登場し、有望なパフォーマンスを達成した。
しかし,3次元空間における関節位置の離散的な性質から,姿勢認識機能を持つブリッジングテキストプロンプトが重要な課題となるため,CLIPを3次元手動ポーズ推定に一般化できるかどうかはまだ未定である。
本稿では, テキストプロンプトと不規則な詳細なポーズ分布とのギャップを埋めるために, clip-hand3d と呼ばれる単眼画像を用いた新しい3次元ポーズ推定器を提案する。
特に、様々な3次元空間方向の手関節の分布順序は、ポーズラベルから導かれ、その後、テキスト表現に符号化された対応するテキストプロンプトを形成する。
同時に、3D空間内の21個の手関節を検索し、その空間分布(x,y,z軸)を符号化してポーズ認識特徴を形成する。
その後、CLIPに基づくコントラスト学習パラダイムに従って、一対のポーズテキスト機能に対するセマンティック一貫性を最大化する。
さらに、特徴ピラミッドから結合認識キューを効果的にクエリできる粗いメッシュ回帰器を設計する。
いくつかのパブリックハンドベンチマークにおいて、提案手法は、類似のスケールバックボーンを用いた手法と比較して、最先端性能を実現しつつ、かなり高速な推論速度を実現することを示す。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z) - 3D Hand Pose and Shape Estimation from RGB Images for Improved
Keypoint-Based Hand-Gesture Recognition [25.379923604213626]
本稿では3次元手とポーズ推定のためのキーポイントに基づくエンドツーエンドフレームワークを提案する。
研究ケースとして手身認識タスクにうまく適用できる。
論文 参考訳(メタデータ) (2021-09-28T17:07:43Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。