論文の概要: View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose
- arxiv url: http://arxiv.org/abs/2010.13321v3
- Date: Thu, 18 Nov 2021 10:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:27:54.469769
- Title: View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose
- Title(参考訳): ビュー不変・オクルージョン・ロバスト確率埋め込み
- Authors: Ting Liu, Jennifer J. Sun, Long Zhao, Jiaping Zhao, Liangzhe Yuan,
Yuxiao Wang, Liang-Chieh Chen, Florian Schroff, Hartwig Adam
- Abstract要約: 本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 36.384824115033304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition of human poses and actions is crucial for autonomous systems to
interact smoothly with people. However, cameras generally capture human poses
in 2D as images and videos, which can have significant appearance variations
across viewpoints that make the recognition tasks challenging. To address this,
we explore recognizing similarity in 3D human body poses from 2D information,
which has not been well-studied in existing works. Here, we propose an approach
to learning a compact view-invariant embedding space from 2D body joint
keypoints, without explicitly predicting 3D poses. Input ambiguities of 2D
poses from projection and occlusion are difficult to represent through a
deterministic mapping, and therefore we adopt a probabilistic formulation for
our embedding space. Experimental results show that our embedding model
achieves higher accuracy when retrieving similar poses across different camera
views, in comparison with 3D pose estimation models. We also show that by
training a simple temporal embedding model, we achieve superior performance on
pose sequence retrieval and largely reduce the embedding dimension from
stacking frame-based embeddings for efficient large-scale retrieval.
Furthermore, in order to enable our embeddings to work with partially visible
input, we further investigate different keypoint occlusion augmentation
strategies during training. We demonstrate that these occlusion augmentations
significantly improve retrieval performance on partial 2D input poses. Results
on action recognition and video alignment demonstrate that using our embeddings
without any additional training achieves competitive performance relative to
other models specifically trained for each task.
- Abstract(参考訳): 人間のポーズや行動の認識は、自律システムが人とスムーズに対話するために不可欠である。
しかし、一般的にカメラは2Dの人間のポーズを画像やビデオとして捉えており、認識タスクを困難にするような視点間で大きな外観の変化をもたらす可能性がある。
これを解決するために,既存の研究でよく研究されていない2次元情報から3次元人体ポーズの類似性を認識することを検討する。
本稿では, 3次元ポーズを明示的に予測することなく, 2次元体関節キーポイントからコンパクトな視野不変埋め込み空間を学習する手法を提案する。
射影と咬合による2次元ポーズの入力あいまいさは決定論的マッピングでは表現が難しいため,埋め込み空間に対して確率的定式化を適用する。
実験の結果, 3次元ポーズ推定モデルと比較して, 異なるカメラビューで同様のポーズを求める場合, 埋め込みモデルの方が高い精度が得られることがわかった。
また,簡易な時空間埋め込みモデルの学習により,ポーズシーケンス検索において優れた性能を達成し,効率的な大規模検索のためにスタックフレームベース埋め込みの埋め込み次元を大幅に削減できることを示した。
さらに,埋め込みを部分的に視覚的な入力で動作させるために,学習中のキーポイント閉塞増強戦略についても検討する。
これらの咬合増強は,部分的な2次元入力ポーズの検索性能を大幅に向上させる。
アクション認識とビデオアライメントの結果は、追加のトレーニングなしで埋め込みを使用することで、各タスク用に特別にトレーニングされた他のモデルと比較して、競争力のあるパフォーマンスが得られることを示している。
関連論文リスト
- Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。
実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。
本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-21T08:21:55Z) - CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by
Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。
カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。
また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文 参考訳(メタデータ) (2023-01-08T05:07:41Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。