論文の概要: ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.08681v1
- Date: Mon, 09 Mar 2026 17:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.68795
- Title: ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation
- Title(参考訳): ER-Pose:リアルタイム人文推定のためのキーポイント駆動表現学習の再考
- Authors: Nanjun Li, Pinqi Cheng, Zean Liu, Minghe Tian, Xuanyin Wang,
- Abstract要約: 単一段階の多人数ポーズ推定は、人間の位置推定とキーポイント予測を共同で行うことを目的としている。
ボックス駆動単段ポーズ推定は、トレーニング中にバウンディングボックスの監督によって暗黙的に制限される。
本稿では,主予測目標に対するポーズ推定を高めるキーポイント駆動型学習パラダイムを提案する。
MS COCOとCrowdPoseでは、ER-Pose-nはプレトレーニングなしで3.2/6.7、プレトレーニングで7.4/4.9のAP改善を実現している。
- 参考スコア(独自算出の注目度): 2.2248409468073143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-stage multi-person pose estimation aims to jointly perform human localization and keypoint prediction within a unified framework, offering advantages in inference efficiency and architectural simplicity. Consequently, multi-scale real-time detection architectures, such as YOLO-like models, are widely adopted for real-time pose estimation. However, these approaches typically inherit a box-driven modeling paradigm from object detection, in which pose estimation is implicitly constrained by bounding-box supervision during training. This formulation introduces biases in sample assignment and feature representation, resulting in task misalignment and ultimately limiting pose estimation accuracy. In this work, we revisit box-driven single-stage pose estimation from a keypoint-driven perspective and identify semantic conflicts among parallel objectives as a key source of performance degradation. To address this issue, we propose a keypoint-driven learning paradigm that elevates pose estimation to a primary prediction objective. Specifically, we remove bounding-box prediction and redesign the prediction head to better accommodate the high-dimensional structured representations for pose estimation. We further introduce a keypoint-driven dynamic sample assignment strategy to align training objectives with pose evaluation metrics, enabling dense supervision during training and efficient NMS-free inference. In addition, we propose a smooth OKS-based loss function to stabilize optimization in regression-based pose estimation. Based on these designs, we develop a single-stage multi-person pose estimation framework, termed ER-Pose. On MS COCO and CrowdPose, ER-Pose-n achieves AP improvements of 3.2/6.7 without pre-training and 7.4/4.9 with pre-training respectively compared with the baseline YOLO-Pose. These improvements are achieved with fewer parameters and higher inference efficiency.
- Abstract(参考訳): 単一段階の多人数ポーズ推定は、統合されたフレームワーク内で、人間のローカライゼーションとキーポイント予測を共同で行うことを目的としており、推論効率とアーキテクチャの単純さの利点を提供する。
その結果、リアルタイムポーズ推定には、YOLOのようなマルチスケールリアルタイム検出アーキテクチャが広く採用されている。
しかし、これらの手法は一般にオブジェクト検出から箱駆動モデリングパラダイムを継承し、トレーニング中に境界ボックスの監督によってポーズ推定が暗黙的に制限される。
この定式化は、サンプルの割り当てと特徴表現のバイアスを導入し、結果としてタスクのミスアライメントが発生し、最終的にポーズ推定の精度が制限される。
本研究では,ボックス駆動の単一ステージポーズ推定をキーポイント駆動の観点から再検討し,並列目的間の意味的対立を性能劣化の鍵源として同定する。
この問題に対処するために,ポーズ推定を主予測対象に高めるキーポイント駆動型学習パラダイムを提案する。
具体的には、バウンディングボックスの予測を取り除き、予測ヘッドを再設計し、ポーズ推定のための高次元構造表現をよりよく適合させる。
さらに,キーポイント駆動型動的サンプル割当て戦略を導入し,トレーニング対象をポーズ評価指標と整合させ,トレーニング中の密な監督と効率的なNMSのない推論を可能にする。
さらに、回帰型ポーズ推定における最適化を安定化するスムーズなOKSに基づく損失関数を提案する。
これらの設計に基づき,ER-Poseと呼ばれる単段階多人数ポーズ推定フレームワークを開発した。
MS COCOとCrowdPoseでは、ER-Pose-nは、ベースラインのYOLO-Poseと比較して、事前トレーニングなしで3.2/6.7と7.4/4.9のAP改善を実現している。
これらの改善は、より少ないパラメータとより高い推論効率で達成される。
関連論文リスト
- RFM-Pose:Reinforcement-Guided Flow Matching for Fast Category-Level 6D Pose Estimation [8.3336796041978]
我々は,サンプル仮説を積極的に評価しながら,カテゴリレベルの6次元オブジェクトポーズ生成を加速する新しいフレームワーク RFM-Pose を提案する。
REAL275ベンチマークの実験では、RAM-Poseは計算コストを大幅に削減し、良好な性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-05T03:26:15Z) - WALDO: Where Unseen Model-based 6D Pose Estimation Meets Occlusion [13.760323763554448]
モデルに基づく6次元ポーズ推定法に対する4つの新しい拡張を提案する。
提案手法は,IABINの精度が5%以上向上し,BOPデータセットのベンチマークでは2%以上向上していることを示す。
論文 参考訳(メタデータ) (2025-11-19T21:01:49Z) - Scriboora: Rethinking Human Pose Forecasting [44.79834103607383]
本稿では,絶対的なポーズ予測のタスクにおいて,ポーズ予測アルゴリズムを広範囲に評価する。
最近の音声モデルは、ポーズ予測のタスクに効率的に適応でき、最先端の性能を向上させることができる。
論文 参考訳(メタデータ) (2025-11-19T15:58:33Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Self-Constrained Inference Optimization on Structural Groups for Human
Pose Estimation [19.630070553319506]
ヒトのポーズ推定の精度とロバスト性を改善するために群構造相関を探索することができる。
我々は,学習中のキーポイント間の構造的相関を特徴付け,学習するための,自己制約付き予測検証ネットワークを開発した。
推論の段階では,検証ネットワークからのフィードバック情報により,ポーズ予測のさらなる最適化を行うことができる。
論文 参考訳(メタデータ) (2022-07-06T03:53:02Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - TFPose: Direct Human Pose Estimation with Transformers [83.03424247905869]
ポーズ推定タスクを変換器で効果的に解くことができるシーケンス予測問題に定式化します。
我々のフレームワークは単純で直接的であり、ヒートマップに基づくポーズ推定の欠点を回避している。
MS-COCOおよびMPIIデータセットの実験は、この手法が回帰ベースのポーズ推定の最先端を大幅に改善できることを示しています。
論文 参考訳(メタデータ) (2021-03-29T04:18:54Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。