論文の概要: End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer
- arxiv url: http://arxiv.org/abs/2511.13208v1
- Date: Mon, 17 Nov 2025 10:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.124587
- Title: End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer
- Title(参考訳): Pose-Aware Video Transformer を用いたエンドツーエンドマルチパーソンポーズ推定
- Authors: Yonghui Yu, Jiahang Cai, Xun Wang, Wenwu Yang,
- Abstract要約: ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
- 参考スコア(独自算出の注目度): 7.19764062839405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-person video pose estimation methods typically adopt a two-stage pipeline: detecting individuals in each frame, followed by temporal modeling for single-person pose estimation. This design relies on heuristic operations such as detection, RoI cropping, and non-maximum suppression (NMS), limiting both accuracy and efficiency. In this paper, we present a fully end-to-end framework for multi-person 2D pose estimation in videos, effectively eliminating heuristic operations. A key challenge is to associate individuals across frames under complex and overlapping temporal trajectories. To address this, we introduce a novel Pose-Aware Video transformEr Network (PAVE-Net), which features a spatial encoder to model intra-frame relations and a spatiotemporal pose decoder to capture global dependencies across frames. To achieve accurate temporal association, we propose a pose-aware attention mechanism that enables each pose query to selectively aggregate features corresponding to the same individual across consecutive frames.Additionally, we explicitly model spatiotemporal dependencies among pose keypoints to improve accuracy. Notably, our approach is the first end-to-end method for multi-frame 2D human pose estimation.Extensive experiments show that PAVE-Net substantially outperforms prior image-based end-to-end methods, achieving a \textbf{6.0} mAP improvement on PoseTrack2017, and delivers accuracy competitive with state-of-the-art two-stage video-based approaches, while offering significant gains in efficiency.Project page: https://github.com/zgspose/PAVENet
- Abstract(参考訳): 既存のマルチパーソンのポーズ推定手法では、一般的に2段階のパイプラインが採用されている: 各フレーム内の個人を検出し、続いて1対1のポーズ推定のための時間的モデリングを行う。
この設計は、検出、RoI収穫、非最大抑制(NMS)といったヒューリスティックな操作に依存しており、精度と効率の両方を制限している。
本稿では,マルチパーソン2次元ポーズ推定のための完全なエンドツーエンドフレームワークを提案する。
重要な課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
そこで我々は,フレーム間関係をモデル化するための空間エンコーダと,フレーム間のグローバルな依存関係をキャプチャする時空間ポーズデコーダを備えた,新しいPose-Aware Video transformEr Network (PAVE-Net)を提案する。
本研究では,各ポーズクエリが連続したフレーム間で同一個人に対応する特徴を選択的に集約し,ポーズキーポイント間の時空間依存性を明示的にモデル化し,精度を向上させるためのポーズアウェアメント機構を提案する。
PAVE-Netは、PoseTrack2017上での‘textbf{6.0} mAP改良を達成し、最先端の2段階のビデオベースアプローチと競合する精度を提供するとともに、効率を大幅に向上する。プロジェクトページ:https://github.com/zgspose/PAVENet
関連論文リスト
- PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文 参考訳(メタデータ) (2025-09-01T03:34:57Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。