論文の概要: Generative Model-Based Loss to the Rescue: A Method to Overcome
Annotation Errors for Depth-Based Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2007.03073v2
- Date: Sun, 30 May 2021 11:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:54:12.651212
- Title: Generative Model-Based Loss to the Rescue: A Method to Overcome
Annotation Errors for Depth-Based Hand Pose Estimation
- Title(参考訳): 生成モデルに基づく救助の損失 : 深さに基づく手のポーズ推定のためのアノテーション誤差を克服する手法
- Authors: Jiayi Wang, Franziska Mueller, Florian Bernard, Christian Theobalt
- Abstract要約: 本稿では,モデルに基づく生成損失を,ボリュームハンドモデルに基づく深度画像に基づく手ポーズ推定器の訓練に用いることを提案する。
この追加的な損失により、手振り推定器のトレーニングが可能となり、21個の手書きキーポイントのセット全体を正確に推測すると同時に、6つの手書きキーポイント(フィンガーチップと手首)の監視のみを使用する。
- 参考スコア(独自算出の注目度): 76.12736932610163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to use a model-based generative loss for training hand pose
estimators on depth images based on a volumetric hand model. This additional
loss allows training of a hand pose estimator that accurately infers the entire
set of 21 hand keypoints while only using supervision for 6 easy-to-annotate
keypoints (fingertips and wrist). We show that our partially-supervised method
achieves results that are comparable to those of fully-supervised methods which
enforce articulation consistency. Moreover, for the first time we demonstrate
that such an approach can be used to train on datasets that have erroneous
annotations, i.e. "ground truth" with notable measurement errors, while
obtaining predictions that explain the depth images better than the given
"ground truth".
- Abstract(参考訳): 本稿では,モデルに基づく生成損失を,ボリュームハンドモデルに基づく深度画像に基づく手ポーズ推定器の訓練に用いることを提案する。
この追加的な損失により、手振り推定器のトレーニングが可能となり、21個の手書きキーポイントのセット全体を正確に推測すると同時に、6つの手書きキーポイント(フィンガーチップと手首)の監視のみを使用する。
本手法は,調音整合を強制する完全教師付き手法に匹敵する結果が得られることを示す。
さらに,このようなアプローチを初めて実証し,与えられた「根拠真理」よりも奥行き画像をよりよく説明できる予測を得るとともに,顕著な測定誤差を伴う誤った注釈を持つデータセット,すなわち「根拠真理」のトレーニングに使用できることを示した。
関連論文リスト
- Weakly-Supervised 3D Hand Reconstruction with Knowledge Prior and Uncertainty Guidance [27.175214956244798]
所要の3Dデータを取得することは、制御された環境に特殊な機器を配置することを必要とするため、完全教師付き単眼3Dハンドリコンストラクションは困難であることが多い。
本稿では,人間の手の構造や機能を理解する上で確立された基本原理を活用することによって,そのような要求を回避する弱教師付き手法を提案する。
提案手法は広く採用されている FreiHAND データセットに対して約21% の性能向上を実現する。
論文 参考訳(メタデータ) (2024-07-17T04:05:34Z) - Self-supervised 3D Human Pose Estimation from a Single Image [1.0878040851638]
本研究では,1枚の画像から3次元人体ポーズを予測する自己教師型手法を提案する。
予測ネットワークは、典型的なポーズの人物と、未ペアの2Dポーズのセットを描写した未ラベル画像のデータセットから訓練される。
論文 参考訳(メタデータ) (2023-04-05T10:26:21Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - Monitored Distillation for Positive Congruent Depth Completion [13.050141729551585]
本研究では,1つの画像から深度マップ,キャリブレーション,およびそれに関連するスパース点雲を推定する手法を提案する。
そこで本研究では,提案手法を応用した適応的知識蒸留手法を提案する。
我々は、モデル選択やトレーニングのために、真実にアクセスすることができないブラインドアンサンブルのシナリオを考察する。
論文 参考訳(メタデータ) (2022-03-30T03:35:56Z) - Predict, Prevent, and Evaluate: Disentangled Text-Driven Image
Manipulation Empowered by Pre-Trained Vision-Language Model [168.04947140367258]
本稿では,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測,予防,評価(PPE)を提案する。
提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを利用して,ターゲットにアプローチする。
大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。
論文 参考訳(メタデータ) (2021-11-26T06:49:26Z) - Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation [116.07661813869196]
そこで本稿では,非ラベルビデオに対人トレーニングとモーションモデリングのアイデアを組み合わせることを提案する。
本研究は,非ラベル映像系列の半教師あり学習により,逆方向が手ポーズ推定器の特性の向上につながることを示す。
このアプローチの主な利点は、ペアのトレーニングデータよりもはるかに容易に、未ペアのビデオとジョイントシーケンスデータを利用することができることです。
論文 参考訳(メタデータ) (2021-06-10T17:50:19Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - Self-Supervised Learning for Monocular Depth Estimation from Aerial
Imagery [0.20072624123275526]
航空画像からの単眼深度推定のための自己教師型学習法を提案する。
このために、単一の移動カメラからの画像シーケンスのみを使用し、深度を同時に推定し、情報をポーズすることを学ぶ。
ポーズと深さ推定の重みを共有することによって、比較的小さなモデルが実現され、リアルタイムの応用が好まれる。
論文 参考訳(メタデータ) (2020-08-17T12:20:46Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。