論文の概要: An End-to-End Framework for Video Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.01095v1
- Date: Mon, 01 Sep 2025 03:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.539417
- Title: An End-to-End Framework for Video Multi-Person Pose Estimation
- Title(参考訳): ビデオマルチパーソン視点推定のためのエンドツーエンドフレームワーク
- Authors: Zhihong Wei,
- Abstract要約: 本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
- 参考スコア(独自算出の注目度): 3.090225730976977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based human pose estimation models aim to address scenarios that cannot be effectively solved by static image models such as motion blur, out-of-focus and occlusion. Most existing approaches consist of two stages: detecting human instances in each image frame and then using a temporal model for single-person pose estimation. This approach separates the spatial and temporal dimensions and cannot capture the global spatio-temporal context between spatial instances for end-to-end optimization. In addition, it relies on separate detectors and complex post-processing such as RoI cropping and NMS, which reduces the inference efficiency of the video scene. To address the above problems, we propose VEPE (Video End-to-End Pose Estimation), a simple and flexible framework for end-to-end pose estimation in video. The framework utilizes three crucial spatio-temporal Transformer components: the Spatio-Temporal Pose Encoder (STPE), the Spatio-Temporal Deformable Memory Encoder (STDME), and the Spatio-Temporal Pose Decoder (STPD). These components are designed to effectively utilize temporal context for optimizing human body pose estimation. Furthermore, to reduce the mismatch problem during the cross-frame pose query matching process, we propose an instance consistency mechanism, which aims to enhance the consistency and discrepancy of the cross-frame instance query and realize the instance tracking function, which in turn accurately guides the pose query to perform cross-frame matching. Extensive experiments on the Posetrack dataset show that our approach outperforms most two-stage models and improves inference efficiency by 300%.
- Abstract(参考訳): ビデオベースの人間のポーズ推定モデルは、モーションボケ、アウト・オブ・フォーカス、オクルージョンといった静的画像モデルでは効果的に解決できないシナリオに対処することを目的としている。
既存のアプローチのほとんどは、2つのステージで構成されている: 各画像フレーム内の人間のインスタンスを検出し、その後、一人称ポーズ推定のための時間モデルを使用する。
このアプローチは、空間的次元と時間的次元を分離し、エンドツーエンド最適化のための空間的インスタンス間のグローバルな時空間コンテキストをキャプチャできない。
さらに、ビデオシーンの推論効率を低下させるため、別個の検出器とRoI収穫やNMSのような複雑な後処理に依存している。
上記の問題に対処するため,ビデオにおけるエンドツーエンドポーズ推定のための簡易かつ柔軟なフレームワークであるVEPE(Video End-to-End Pose Estimation)を提案する。
このフレームワークは3つの重要な時空間トランスフォーマーコンポーネント(時空間ポスエンコーダ(STPE)、時空間デフォーマブルメモリエンコーダ(STDME)、時空間ポスデコーダ(STPD)を使用する。
これらのコンポーネントは、人体ポーズ推定の最適化に時間的コンテキストを効果的に活用するために設計されている。
さらに、クロスフレームポーズクエリマッチングプロセスにおけるミスマッチ問題を低減するために、クロスフレームインスタンスクエリの一貫性と不一致性を向上し、インスタンス追跡機能を実現するインスタンス整合性機構を提案する。
Posetrackデータセットの大規模な実験により、我々のアプローチは、ほとんどの2段階モデルより優れ、推論効率が300%向上することが示された。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。