論文の概要: On the Role of Rotation Equivariance in Monocular 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2601.13913v1
- Date: Tue, 20 Jan 2026 12:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.308178
- Title: On the Role of Rotation Equivariance in Monocular 3D Human Pose Estimation
- Title(参考訳): 単眼3次元人物位置推定における回転等価性の役割について
- Authors: Pavlo Melnyk, Cuong Le, Urs Waldmann, Per-Erik Forssén, Bastian Wandt,
- Abstract要約: 我々は,3次元ポーズ推定における単眼的設定,すなわち単一視点入力について考察する。
ここでは、単一の2次元入力画像から人間の骨格関節の3D点集合を予測する。
回転した入力に遭遇すると、一般的な昇降モデルは失敗する。
- 参考スコア(独自算出の注目度): 11.69147365913294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D from 2D is one of the central tasks in computer vision. In this work, we consider the monocular setting, i.e. single-view input, for 3D human pose estimation (HPE). Here, the task is to predict a 3D point set of human skeletal joints from a single 2D input image. While by definition this is an ill-posed problem, recent work has presented methods that solve it with up to several-centimetre error. Typically, these methods employ a two-step approach, where the first step is to detect the 2D skeletal joints in the input image, followed by the step of 2D-to-3D lifting. We find that common lifting models fail when encountering a rotated input. We argue that learning a single human pose along with its in-plane rotations is considerably easier and more geometrically grounded than directly learning a point-to-point mapping. Furthermore, our intuition is that endowing the model with the notion of rotation equivariance without explicitly constraining its parameter space should lead to a more straightforward learning process than one with equivariance by design. Utilising the common HPE benchmarks, we confirm that the 2D rotation equivariance per se improves the model performance on human poses akin to rotations in the image plane, and can be efficiently and straightforwardly learned by augmentation, outperforming state-of-the-art equivariant-by-design methods.
- Abstract(参考訳): 2Dから3Dを推定することは、コンピュータビジョンの中心的なタスクの1つである。
本研究では,3次元ポーズ推定(HPE)のための単一視点入力(シングルビュー入力)について考察する。
ここでは、単一の2次元入力画像から人間の骨格関節の3D点集合を予測する。
定義上、これは誤った問題であるが、近年の研究では、最大数センチの誤差で解決する方法が提示されている。
通常、これらの手法は2段階のアプローチを採用しており、最初のステップは入力画像中の2次元骨格関節を検出し、次に2次元から3次元のリフトを行う。
回転した入力に遭遇すると、一般的な昇降モデルは失敗する。
我々は、平面内回転とともに1人の人間のポーズを学習することは、ポイントツーポイントマッピングを直接学習するよりも、かなり簡単で幾何学的に基礎づけられていると論じる。
さらに、我々の直観は、モデルにパラメータ空間を明示的に制約することなく回転同値の概念を付与することは、設計による等式を持つモデルよりも、より直接的な学習プロセスをもたらすべきであるということである。
一般的なHPEベンチマークを用いて,画像平面の回転に類似した人間のポーズにおける2次元回転同値がモデル性能を向上させることを確認する。
関連論文リスト
- Efficient 2D to Full 3D Human Pose Uplifting including Joint Rotations [13.281936946796913]
本研究では,関節回転を含む3次元のポーズを直接1回の前方通過で推定する新しい2D-to-3D昇降モデルを提案する。
我々のモデルは回転推定における最先端の精度を達成し、IKベースのアプローチよりも150倍高速であり、HMRモデルよりも高精度である。
論文 参考訳(メタデータ) (2025-04-14T07:32:28Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。