論文の概要: A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2311.03312v1
- Date: Mon, 6 Nov 2023 18:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:23:20.730753
- Title: A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation
- Title(参考訳): 文脈付き1つの2dポーズは、人間の3dポーズ推定に数百ドルに値する
- Authors: Qitao Zhao, Ce Zheng, Mengyuan Liu, Chen Chen
- Abstract要約: 3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
- 参考スコア(独自算出の注目度): 18.72362803593654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm in 3D human pose estimation that lifts a 2D pose
sequence to 3D heavily relies on long-term temporal clues (i.e., using a
daunting number of video frames) for improved accuracy, which incurs
performance saturation, intractable computation and the non-causal problem.
This can be attributed to their inherent inability to perceive spatial context
as plain 2D joint coordinates carry no visual cues. To address this issue, we
propose a straightforward yet powerful solution: leveraging the readily
available intermediate visual representations produced by off-the-shelf
(pre-trained) 2D pose detectors -- no finetuning on the 3D task is even needed.
The key observation is that, while the pose detector learns to localize 2D
joints, such representations (e.g., feature maps) implicitly encode the
joint-centric spatial context thanks to the regional operations in backbone
networks. We design a simple baseline named Context-Aware PoseFormer to
showcase its effectiveness. Without access to any temporal information, the
proposed method significantly outperforms its context-agnostic counterpart,
PoseFormer, and other state-of-the-art methods using up to hundreds of video
frames regarding both speed and precision. Project page:
https://qitaozhao.github.io/ContextAware-PoseFormer
- Abstract(参考訳): 2次元ポーズ列を3Dに引き上げる3次元ポーズ推定における支配的なパラダイムは、パフォーマンス飽和、難解な計算および非因果問題を引き起こす、精度を向上させるための長期的時間的手がかり(すなわち、ビデオフレームの数が多い)に大きく依存する。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
この問題に対処するため,我々は,市販の2Dポーズ検出器が生成する,手軽に利用可能な中間的視覚表現を活用するという,簡単かつ強力なソリューションを提案する。
重要な観察は、ポーズ検出器が2dジョイントをローカライズすることを学ぶ一方で、そのような表現(例えば特徴マップ)はバックボーンネットワークの地域操作によって、暗黙的にジョイント中心の空間コンテキストを符号化する。
我々はContext-Aware PoseFormerというシンプルなベースラインを設計し、その効果を示す。
時間的情報へのアクセスがなければ、提案手法は、速度と精度の両方について最大数百のビデオフレームを使用して、文脈に依存しないコンテクスト、ポーズフォーマー、その他の最先端手法を大幅に上回る。
プロジェクトページ: https://qitaozhao.github.io/ContextAware-PoseFormer
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Weakly-supervised Cross-view 3D Human Pose Estimation [16.045255544594625]
弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
論文 参考訳(メタデータ) (2021-05-23T08:16:25Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。