論文の概要: Efficient, Self-Supervised Human Pose Estimation with Inductive Prior
Tuning
- arxiv url: http://arxiv.org/abs/2311.02815v1
- Date: Mon, 6 Nov 2023 01:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:35:35.551183
- Title: Efficient, Self-Supervised Human Pose Estimation with Inductive Prior
Tuning
- Title(参考訳): インダクティブ・プリエント・チューニングを用いた効率的・自己教師付きポーズ推定
- Authors: Nobline Yoo, Olga Russakovsky
- Abstract要約: 復元品質と推定精度の関係を解析する。
トレーニングデータの3分の1以下を使用して,ベースラインよりも優れたモデルパイプラインを開発する。
提案手法により, 再建にともなう学習のコーディネートを支援することができることを示す。
- 参考スコア(独自算出の注目度): 30.256493625913127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of 2D human pose estimation (HPE) is to localize anatomical
landmarks, given an image of a person in a pose. SOTA techniques make use of
thousands of labeled figures (finetuning transformers or training deep CNNs),
acquired using labor-intensive crowdsourcing. On the other hand,
self-supervised methods re-frame the HPE task as a reconstruction problem,
enabling them to leverage the vast amount of unlabeled visual data, though at
the present cost of accuracy. In this work, we explore ways to improve
self-supervised HPE. We (1) analyze the relationship between reconstruction
quality and pose estimation accuracy, (2) develop a model pipeline that
outperforms the baseline which inspired our work, using less than one-third the
amount of training data, and (3) offer a new metric suitable for
self-supervised settings that measures the consistency of predicted body part
length proportions. We show that a combination of well-engineered
reconstruction losses and inductive priors can help coordinate pose learning
alongside reconstruction in a self-supervised paradigm.
- Abstract(参考訳): 2d human pose estimation(hpe)の目標は、ポーズ中の人物のイメージから解剖学的ランドマークをローカライズすることである。
SOTA技術は数千のラベル付きフィギュア(ファイントゥニングトランスフォーマーや深層CNNの訓練)を活用し、労働集約型のクラウドソーシングを用いて取得する。
一方,自己教師あり手法では,hpeタスクを再構築問題として再編成し,現在の精度は高いが,膨大な量のラベルなし視覚データを活用できる。
本研究では,自己監督型HPEを改善する方法について検討する。
1) 再現品質と推定精度の関係を解析し,(2) トレーニングデータの3分の1未満の量を用いて,作業にインスパイアされたベースラインより優れたモデルパイプラインを開発し,(3) 予測した身体部分の長さ比の一貫性を計測する自己監督的設定に適した新しい指標を提供する。
高度に設計された再構築損失と帰納的事前学習の組み合わせは,自己監督パラダイムの再構築とともにポーズ学習のコーディネートを支援する。
関連論文リスト
- 3D WholeBody Pose Estimation based on Semantic Graph Attention Network and Distance Information [2.457872341625575]
新たなセマンティックグラフアテンションネットワークは、グローバルコンテキストをキャプチャする自己アテンションの能力の恩恵を受けることができる。
本体部分デコーダは、身体の特定のセグメントに関連する情報を抽出し、精製するのを支援する。
幾何学的損失(Geometry Loss)は身体の構造的骨格に批判的な制約を与え、モデルの予測が人間の姿勢の自然な限界に合致することを確実にする。
論文 参考訳(メタデータ) (2024-06-03T10:59:00Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。