論文の概要: Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2106.05954v1
- Date: Thu, 10 Jun 2021 17:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:18:28.188841
- Title: Adversarial Motion Modelling helps Semi-supervised Hand Pose Estimation
- Title(参考訳): 逆運動モデリングによる半教師付きハンドポース推定
- Authors: Adrian Spurr, Pavlo Molchanov, Umar Iqbal, Jan Kautz, Otmar Hilliges
- Abstract要約: そこで本稿では,非ラベルビデオに対人トレーニングとモーションモデリングのアイデアを組み合わせることを提案する。
本研究は,非ラベル映像系列の半教師あり学習により,逆方向が手ポーズ推定器の特性の向上につながることを示す。
このアプローチの主な利点は、ペアのトレーニングデータよりもはるかに容易に、未ペアのビデオとジョイントシーケンスデータを利用することができることです。
- 参考スコア(独自算出の注目度): 116.07661813869196
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hand pose estimation is difficult due to different environmental conditions,
object- and self-occlusion as well as diversity in hand shape and appearance.
Exhaustively covering this wide range of factors in fully annotated datasets
has remained impractical, posing significant challenges for generalization of
supervised methods. Embracing this challenge, we propose to combine ideas from
adversarial training and motion modelling to tap into unlabeled videos. To this
end we propose what to the best of our knowledge is the first motion model for
hands and show that an adversarial formulation leads to better generalization
properties of the hand pose estimator via semi-supervised training on unlabeled
video sequences. In this setting, the pose predictor must produce a valid
sequence of hand poses, as determined by a discriminative adversary. This
adversary reasons both on the structural as well as temporal domain,
effectively exploiting the spatio-temporal structure in the task. The main
advantage of our approach is that we can make use of unpaired videos and joint
sequence data both of which are much easier to attain than paired training
data. We perform extensive evaluation, investigating essential components
needed for the proposed framework and empirically demonstrate in two
challenging settings that the proposed approach leads to significant
improvements in pose estimation accuracy. In the lowest label setting, we
attain an improvement of $40\%$ in absolute mean joint error.
- Abstract(参考訳): 手ポーズ推定は, 環境条件の相違, 対象, 自己排他, 手の形状や外観の多様性により困難である。
完全アノテートされたデータセットにおいて、この幅広い要因を徹底的にカバーすることは、教師付き手法の一般化に重大な課題を呈している。
本稿では,この課題に対処するために,対戦型トレーニングとモーションモデリングのアイデアを組み合わせて,ラベルのないビデオにタップすることを提案する。
そこで本研究では,まず,手の動きモデルが最良であることを示すとともに,非ラベル映像列に対する半教師付き学習により,逆定式化が手ポーズ推定器の一般化性の向上に繋がることを示す。
この設定では、ポーズ予測器は差別的敵によって決定されるように、有効なポーズのシーケンスを生成する必要がある。
この逆の理由は、構造と時間領域の両方に依存し、タスクの時空間構造を効果的に活用する。
このアプローチの主な利点は、ペア化されていないビデオとジョイントシーケンスデータを利用することができ、どちらもペア化トレーニングデータよりも達成が容易であることです。
本研究は,提案手法がポーズ推定精度を著しく向上させる2つの課題条件において,提案フレームワークに必要な必須成分を調査し,広範囲な評価を行い,実証的に実証する。
最も低いラベル設定では、絶対平均ジョイントエラーで$40\%$の改善を達成します。
関連論文リスト
- Exploring the Impact of Hand Pose and Shadow on Hand-washing Action Recognition [0.0]
本稿では,ポーズと影が分類器の性能に与える影響について検討する。
それらがポーズや影の条件に大きく影響していることを示す。
モデル精度がほぼゼロに低下し、ポーズが大きく変化するのを観察するのは興味深いことです。
論文 参考訳(メタデータ) (2024-06-19T21:49:12Z) - A comprehensive framework for occluded human pose estimation [10.92234109536279]
咬合は人間のポーズ推定において重要な課題である。
そこで我々は,DAG (Data, Attention, Graph) を提案する。
また、FGMP-GCN (Feature-Guided Multi-Hop GCN) を提示し、身体構造に関する事前知識を十分に探求し、ポーズ推定結果を改善する。
論文 参考訳(メタデータ) (2023-12-30T06:55:30Z) - STRIDE: Single-video based Temporally Continuous Occlusion Robust 3D Pose Estimation [27.854074900345314]
ビデオに先立って人間の動作に適合する新しいテストタイムトレーニング(TTT)手法であるSTRIDEを提案する。
筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
我々は、Occluded Human3.6M、Human3.6M、OCMotionのような挑戦的なデータセットに関する包括的な実験を通じてSTRIDEの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T11:05:10Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - 3D Interacting Hand Pose Estimation by Hand De-occlusion and Removal [85.30756038989057]
単一のRGB画像から3Dインタラクションハンドポーズを推定することは、人間の行動を理解するのに不可欠である。
本稿では,難易度の高い手ポーズ推定タスクを分解し,各手のポーズを別々に推定することを提案する。
実験の結果,提案手法は従来の手ポーズ推定手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-07-22T13:04:06Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Selective Spatio-Temporal Aggregation Based Pose Refinement System:
Towards Understanding Human Activities in Real-World Videos [8.571131862820833]
最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。
本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。
本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
論文 参考訳(メタデータ) (2020-11-10T19:19:51Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。