論文の概要: Optimizing Human Pose Estimation Through Focused Human and Joint Regions
- arxiv url: http://arxiv.org/abs/2501.14439v1
- Date: Fri, 24 Jan 2025 12:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:50.962826
- Title: Optimizing Human Pose Estimation Through Focused Human and Joint Regions
- Title(参考訳): 焦点を絞ったヒトと関節領域における姿勢推定の最適化
- Authors: Yingying Jiao, Zhigang Wang, Zhenguang Liu, Shaojing Fan, Sifan Wu, Zheqi Wu, Zhuoyue Xu,
- Abstract要約: 人間のポーズ推定は、アクション認識、スポーツ分析、監視など、幅広い斬新で魅力的な応用を生み出している。
従来の方法は、対象の人体に焦点をあてるのではなく、すべてのピクセルから動きの手がかりを学習し、背景の変化や他者の動きといった重要でない情報によって容易に誤解され、破壊される。
本稿では,不重要な図形領域をマスキングしながら,対象の人体やキーポイントに徐々にズームインする,粗い視覚トークンの精細化を行う2層型Human-Keypoint Maskモジュールを提案する。
提案手法は3つの大規模ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.37601213802529
- License:
- Abstract: Human pose estimation has given rise to a broad spectrum of novel and compelling applications, including action recognition, sports analysis, as well as surveillance. However, accurate video pose estimation remains an open challenge. One aspect that has been overlooked so far is that existing methods learn motion clues from all pixels rather than focusing on the target human body, making them easily misled and disrupted by unimportant information such as background changes or movements of other people. Additionally, while the current Transformer-based pose estimation methods has demonstrated impressive performance with global modeling, they struggle with local context perception and precise positional identification. In this paper, we try to tackle these challenges from three aspects: (1) We propose a bilayer Human-Keypoint Mask module that performs coarse-to-fine visual token refinement, which gradually zooms in on the target human body and keypoints while masking out unimportant figure regions. (2) We further introduce a novel deformable cross attention mechanism and a bidirectional separation strategy to adaptively aggregate spatial and temporal motion clues from constrained surrounding contexts. (3) We mathematically formulate the deformable cross attention, constraining that the model focuses solely on the regions centered at the target person body. Empirically, our method achieves state-of-the-art performance on three large-scale benchmark datasets. A remarkable highlight is that our method achieves an 84.8 mean Average Precision (mAP) on the challenging wrist joint, which significantly outperforms the 81.5 mAP achieved by the current state-of-the-art method on the PoseTrack2017 dataset.
- Abstract(参考訳): 人間のポーズ推定は、アクション認識、スポーツ分析、監視など、幅広い斬新で魅力的な応用を生み出している。
しかし、正確なビデオポーズ推定は未解決の課題である。
これまで見過ごされてきた1つの側面は、既存の手法が対象の人体に注目するのではなく、すべてのピクセルから動きの手がかりを学習し、背景の変化や他者の動きといった重要でない情報によって容易に誤解され破壊されることである。
さらに、現在のTransformerベースのポーズ推定手法は、グローバルモデリングで顕著な性能を示す一方で、局所的な文脈認識と正確な位置同定に苦慮している。
そこで本研究では, 対象の人体とキーポイントに徐々にズームインし, 重要でない図形領域をマスキングしながら, 粗い目安を施す2層型ヒューマンキーポイントマスクモジュールを提案する。
2) 新たに変形可能なクロスアテンション機構を導入し, 空間的および時間的動きの手がかりを制約付き環境から適応的に集約する双方向分離戦略を提案する。
(3) 変形可能なクロスアテンションを数学的に定式化し、モデルが対象の人体を中心とした領域のみに焦点を当てることを制約する。
提案手法は,3つの大規模ベンチマークデータセットの最先端性能を実証的に達成する。
注目すべきは,本手法が手関節の平均精度84.8の平均値(mAP)を達成し,現在のPoseTrack2017データセットの最先端手法によって達成された81.5mAPを著しく上回っている点である。
関連論文リスト
- HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - A survey of top-down approaches for human pose estimation [0.0]
Deep Learningで実装された最先端の手法は、人間のポーズ推定の分野で顕著な成果をもたらした。
本稿では,人々のポーズを認識するための深層学習手法に基づく2次元画像の広範なレビューを新参者に提供することを目的とする。
論文 参考訳(メタデータ) (2022-02-05T23:27:46Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - A review of 3D human pose estimation algorithms for markerless motion
capture [0.0]
我々は過去5年間の主要な人間のポーズ推定手法を概観し、メトリクス、ベンチマーク、メソッド構造に注目した。
本稿では,方法の分類や今後の研究の方向性の導出に使用する精度,速度,堅牢性に基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-10-13T15:07:01Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。