論文の概要: Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2210.16788v1
- Date: Sun, 30 Oct 2022 09:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:35:18.181280
- Title: Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation
- Title(参考訳): 画像自由領域のCLIPによる3次元ハンドポース推定
- Authors: Seongyeong Lee, Hansoo Park, Dong Uk Kim, Jihyeon Kim, Muhammadjon
Boboev, Seungryul Baek
- Abstract要約: 本稿では,手ポーズ推定フレームワークのためのシンプルな画像自由領域一般化手法を提案する。
テキスト記述から特徴を付加することにより,手ポーズ推定ネットワークの画像特徴の操作を試みる。
次に、操作された画像特徴を利用して、コントラスト学習フレームワークを介して、ポーズ推定ネットワークをトレーニングする。
- 参考スコア(独自算出の注目度): 5.205975578123176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-based 3D hand pose estimation has been successful for decades thanks to
large-scale databases and deep learning. However, the hand pose estimation
network does not operate well for hand pose images whose characteristics are
far different from the training data. This is caused by various factors such as
illuminations, camera angles, diverse backgrounds in the input images, etc.
Many existing methods tried to solve it by supplying additional large-scale
unconstrained/target domain images to augment data space; however collecting
such large-scale images takes a lot of labors. In this paper, we present a
simple image-free domain generalization approach for the hand pose estimation
framework that uses only source domain data. We try to manipulate the image
features of the hand pose estimation network by adding the features from text
descriptions using the CLIP (Contrastive Language-Image Pre-training) model.
The manipulated image features are then exploited to train the hand pose
estimation network via the contrastive learning framework. In experiments with
STB and RHD datasets, our algorithm shows improved performance over the
state-of-the-art domain generalization approaches.
- Abstract(参考訳): rgbベースの3dハンドポーズ推定は、大規模データベースとディープラーニングのおかげで、数十年にわたって成功している。
しかし、手ポーズ推定ネットワークは、トレーニングデータとはかなり異なる特徴を持つ手ポーズ画像に対してうまく動作しない。
これは、照明、カメラアングル、入力画像のさまざまな背景など、さまざまな要因によって引き起こされる。
既存の方法の多くは、データ空間を増強するために、追加の大規模非制約/ターゲットのドメインイメージを提供することで解決しようとしたが、大規模な画像の収集には多くの手間がかかった。
本稿では,ソースドメインデータのみを用いた手振り推定フレームワークに対して,シンプルな画像自由領域一般化手法を提案する。
そこで我々は,CLIP(Contrastive Language- Image Pre-training)モデルを用いて,手ポーズ推定ネットワークの画像特徴をテキスト記述から追加することによって操作する。
操作された画像特徴を利用して、コントラスト学習フレームワークを介して手ポーズ推定ネットワークをトレーニングする。
STBおよびRHDデータセットを用いた実験では、最先端の領域一般化手法よりも性能が向上した。
関連論文リスト
- Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars [47.61442517627826]
本稿では,3次元ガウススプラッティング(GS)と単一画像入力と手を相互作用するアニマタブルアバターを提案する。
提案手法は大規模なInterHand2.6Mデータセットの広範な実験により検証される。
論文 参考訳(メタデータ) (2024-10-11T14:14:51Z) - Pre-Training for 3D Hand Pose Estimation with Contrastive Learning on Large-Scale Hand Images in the Wild [24.154209506904355]
我々は,ハンドCLRと呼ばれる3次元手ポーズ推定器の事前学習に適した,手動画像に基づくコントラスト学習フレームワークを提案する。
実験により,データ拡張を伴う単一画像から正のペアを生成する従来のコントラスト学習手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-09-15T12:45:15Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Perspective Flow Aggregation for Data-Limited 6D Object Pose Estimation [121.02948087956955]
宇宙や水中の深層などのいくつかのアプリケーションでは、実際の画像を取得することは、注釈のないものであっても、事実上不可能である。
本稿では,合成画像のみに限定してトレーニングできる手法を提案する。
これは、アノテートされた実画像を必要としない場合、トレーニングのためにアノテートされた実画像を必要とするメソッドと同等に動作し、20個の実画像を使用する場合、かなりパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-03-18T10:20:21Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。