論文の概要: Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2312.15636v1
- Date: Mon, 25 Dec 2023 07:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:32:20.935353
- Title: Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation
- Title(参考訳): 画像による持ち上げ --正確な3次元ポーズ推定のための画像手がかりを活用する
- Authors: Feng Zhou, Jianqin Yin, Peiyang Li
- Abstract要約: 2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
- 参考スコア(独自算出の注目度): 10.374944534302234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "lifting from 2D pose" method has been the dominant approach to 3D Human
Pose Estimation (3DHPE) due to the powerful visual analysis ability of 2D pose
estimators. Widely known, there exists a depth ambiguity problem when
estimating solely from 2D pose, where one 2D pose can be mapped to multiple 3D
poses. Intuitively, the rich semantic and texture information in images can
contribute to a more accurate "lifting" procedure. Yet, existing research
encounters two primary challenges. Firstly, the distribution of image data in
3D motion capture datasets is too narrow because of the laboratorial
environment, which leads to poor generalization ability of methods trained with
image information. Secondly, effective strategies for leveraging image
information are lacking. In this paper, we give new insight into the cause of
poor generalization problems and the effectiveness of image features. Based on
that, we propose an advanced framework. Specifically, the framework consists of
two stages. First, we enable the keypoints to query and select the beneficial
features from all image patches. To reduce the keypoints attention to
inconsequential background features, we design a novel Pose-guided Transformer
Layer, which adaptively limits the updates to unimportant image patches. Then,
through a designed Adaptive Feature Selection Module, we prune less significant
image patches from the feature map. In the second stage, we allow the keypoints
to further emphasize the retained critical image features. This progressive
learning approach prevents further training on insignificant image features.
Experimental results show that our model achieves state-of-the-art performance
on both the Human3.6M dataset and the MPI-INF-3DHP dataset.
- Abstract(参考訳): 2dポーズからのリフト」法は、2dポーズ推定器の強力な視覚解析能力のため、3dポーズ推定(3dhpe)に支配的なアプローチである。
広く知られているのは、2dポーズのみから推定する場合の深さ曖昧性問題であり、1つの2dポーズを複数の3dポーズにマッピングすることができる。
直感的には、画像の豊かな意味とテクスチャ情報はより正確な「リフト」手順に寄与する。
しかし、既存の研究は2つの大きな課題に直面している。
まず, 3次元モーションキャプチャデータセット内の画像データの分布は, 作業環境のため狭すぎるため, 画像情報を用いて学習した手法の一般化能力が低下する。
第二に、画像情報を活用する効果的な戦略が欠如している。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
そこで我々は,高度なフレームワークを提案する。
具体的には、フレームワークは2つのステージで構成される。
まず、キーポイントがすべてのイメージパッチから有益な機能をクエリし、選択できるようにします。
重要でない背景特徴に対するキーポイントの注意を減らすために,新たなポーズ誘導トランスフォーマー層を設計し,重要でない画像パッチへの更新を適応的に制限する。
次に、アダプティブな機能選択モジュールを設計することで、特徴マップから重要なイメージパッチを除外します。
第2段階では、キーポイントが重要な画像の特徴をさらに強調できるようにします。
このプログレッシブラーニングアプローチは、重要な画像特徴のさらなるトレーニングを妨げる。
実験結果から,本モデルはHuman3.6MデータセットとMPI-INF-3DHPデータセットの両方で最先端の性能を達成できた。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose [36.384824115033304]
本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-10-23T17:58:35Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。