論文の概要: PriorFormer: A Transformer for Real-time Monocular 3D Human Pose Estimation with Versatile Geometric Priors
- arxiv url: http://arxiv.org/abs/2508.18238v1
- Date: Thu, 21 Aug 2025 08:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.892308
- Title: PriorFormer: A Transformer for Real-time Monocular 3D Human Pose Estimation with Versatile Geometric Priors
- Title(参考訳): PriorFormer:Versatile Geometric Priorsを用いたリアルタイムモノクロ3次元人物位置推定用トランス
- Authors: Mohamed Adjel, Vincent Bonnet,
- Abstract要約: 本稿では,人間の2次元関節位置の短い列を1台のカメラで3次元ポーズにマッピングする軽量トランスフォーマーベースリフト機を提案する。
提案モデルでは,セグメント長やカメラ内在性などの入力幾何学的先行を考慮し,キャリブレーションとアンキャリブレーションの両方で動作させるように設計されている。
- 参考スコア(独自算出の注目度): 1.4932318540666545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new lightweight Transformer-based lifter that maps short sequences of human 2D joint positions to 3D poses using a single camera. The proposed model takes as input geometric priors including segment lengths and camera intrinsics and is designed to operate in both calibrated and uncalibrated settings. To this end, a masking mechanism enables the model to ignore missing priors during training and inference. This yields a single versatile network that can adapt to different deployment scenarios, from fully calibrated lab environments to in-the-wild monocular videos without calibration. The model was trained using 3D keypoints from AMASS dataset with corresponding 2D synthetic data generated by sampling random camera poses and intrinsics. It was then compared to an expert model trained, only on complete priors, and the validation was done by conducting an ablation study. Results show that both, camera and segment length priors, improve performance and that the versatile model outperforms the expert, even when all priors are available, and maintains high accuracy when priors are missing. Overall the average 3D joint center positions estimation accuracy was as low as 36mm improving state of the art by half a centimeter and at a much lower computational cost. Indeed, the proposed model runs in 380$\mu$s on GPU and 1800$\mu$s on CPU, making it suitable for deployment on embedded platforms and low-power devices.
- Abstract(参考訳): 本稿では,人間の2次元関節位置の短い列を1台のカメラで3次元ポーズにマッピングする軽量トランスフォーマーベースリフト機を提案する。
提案モデルでは,セグメント長やカメラ内在性などの入力幾何学的先行を考慮し,キャリブレーションとアンキャリブレーションの両方で動作させるように設計されている。
この目的のために、マスキングメカニズムにより、トレーニングや推論中に失った事前を無視することができる。
これにより、完全に校正された実験室環境から、キャリブレーションなしで一眼レフビデオまで、さまざまな展開シナリオに適応できる単一の汎用ネットワークが得られる。
AMASSデータセットの3Dキーポイントと、ランダムカメラのポーズと本質的なポーズをサンプリングして生成された2D合成データを用いて、モデルを訓練した。
その後、完全に事前にのみ訓練されたエキスパートモデルと比較され、その検証はアブレーション研究によって行われた。
その結果、カメラ長とセグメント長の両方において、性能が向上し、全ての事前が利用可能であったとしても、多目的モデルが専門家より優れており、事前が欠落している場合に高い精度を維持することが明らかとなった。
平均3次元関節中心位置推定精度は36mmまで低く,半cm程度向上し,計算コストも大幅に低かった。
実際、提案されたモデルはGPUで380$\mu$s、CPUで1800$\mu$sで動作し、組み込みプラットフォームや低消費電力デバイスでのデプロイメントに適している。
関連論文リスト
- UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation [19.76147681894604]
UnPoseはゼロショットでモデルなしの6Dオブジェクトのポーズ推定と再構成のためのフレームワークである。
事前訓練された拡散モデルから3Dの先行値と不確実性の推定値を利用する。
6次元ポーズ推定精度と3次元再構成品質の両方において、既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2025-08-21T21:31:04Z) - Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors [0.0]
リアルタイム2Dキーポイント検出と幾何学的2D-to-3Dリフトを組み合わせたフレームワークを提案する。
特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
論文 参考訳(メタデータ) (2025-07-21T08:18:23Z) - Online Test-time Adaptation for 3D Human Pose Estimation: A Practical Perspective with Estimated 2D Poses [40.21976058922288]
3次元人間のポーズ推定のためのオンラインテスト時間適応は、トレーニングデータとは異なるビデオストリームに使用される。
地上の真理2Dポーズは適応に使用されるが、実際に利用できるのは推定2Dポーズのみである。
本稿では、推定2次元ポーズによるストリーミングビデオへの適応モデルについて述べる。
論文 参考訳(メタデータ) (2025-03-14T08:41:55Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers [23.96688843662126]
単眼画像からポーズ付き3次元モデルを構築することはスポーツ産業において重要な応用である。
人間の3次元ポーズと形状推定を3次元ガウススティング(3DGS)と組み合わせ,ガウスの混合シーンを表現した。
この組み合わせは、高価な拡散モデルや3Dポイントの監督なしに、1つの画像から3次元人間のモデルをほぼリアルタイムで推定できることを示す。
論文 参考訳(メタデータ) (2024-09-06T11:34:24Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。