論文の概要: Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2008.01388v1
- Date: Tue, 4 Aug 2020 07:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:33:06.469220
- Title: Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation
- Title(参考訳): 多人数3次元ポーズ推定のための教師なしクロスモーダルアライメント
- Authors: Jogendra Nath Kundu, Ambareesh Revanur, Govind Vitthal Waghmare, Rahul
Mysore Venkatesh, R. Venkatesh Babu
- Abstract要約: マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
- 参考スコア(独自算出の注目度): 52.94078950641959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a deployment friendly, fast bottom-up framework for multi-person
3D human pose estimation. We adopt a novel neural representation of
multi-person 3D pose which unifies the position of person instances with their
corresponding 3D pose representation. This is realized by learning a generative
pose embedding which not only ensures plausible 3D pose predictions, but also
eliminates the usual keypoint grouping operation as employed in prior bottom-up
approaches. Further, we propose a practical deployment paradigm where paired 2D
or 3D pose annotations are unavailable. In the absence of any paired
supervision, we leverage a frozen network, as a teacher model, which is trained
on an auxiliary task of multi-person 2D pose estimation. We cast the learning
as a cross-modal alignment problem and propose training objectives to realize a
shared latent space between two diverse modalities. We aim to enhance the
model's ability to perform beyond the limiting teacher network by enriching the
latent-to-3D pose mapping using artificially synthesized multi-person 3D scene
samples. Our approach not only generalizes to in-the-wild images, but also
yields a superior trade-off between speed and performance, compared to prior
top-down approaches. Our approach also yields state-of-the-art multi-person 3D
pose estimation performance among the bottom-up approaches under consistent
supervision levels.
- Abstract(参考訳): 本稿では,多人数3次元ポーズ推定のためのデプロイフレンドリで高速なボトムアップフレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する多人数3Dポーズのニューラル表現を採用する。
これは、3Dのポーズ予測を確実にするだけでなく、従来のボトムアップアプローチのようにキーポイントグループ化操作を不要にする生成的ポーズ埋め込みを学習することによって実現される。
さらに, 2d と 3d の重ね合わせアノテーションを利用できない実用的な配置パラダイムを提案する。
ペアの監督がない場合は,教師モデルとして凍結したネットワークを活用し,多人数2次元ポーズ推定の補助タスクで学習する。
学習をクロスモーダルアライメント問題として位置づけ,2つの多様なモダリティ間の共有潜在空間を実現するための学習目標を提案する。
本研究の目的は,多人数3次元シーンの人工合成を用いた潜在-3次元ポーズマッピングを充実させることにより,教師ネットワークの限界を超えて,モデルの実行能力を高めることである。
提案手法は,Wild画像への一般化だけでなく,従来のトップダウン手法と比較して,速度と性能のトレードオフも優れている。
また, ボトムアップ方式では, 一定の監督レベルにおいて, 最先端のマルチパーソン3dポーズ推定性能が得られている。
関連論文リスト
- Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - 3D Human Pose Estimation Based on 2D-3D Consistency with Synchronized
Adversarial Training [5.306053507202384]
本稿では,3次元ポーズから2次元ポーズへの分布のマッピングを学習するために,再投影ネットワークを用いた3次元ポーズ推定のためのGANモデルを提案する。
典型的なキネマティック連鎖空間(KCS)行列に着想を得て、重み付きKCS行列を導入し、関節角度と骨長の制約を課す判別器の入力の1つとする。
論文 参考訳(メタデータ) (2021-06-08T12:11:56Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。