論文の概要: Combining detection and tracking for human pose estimation in videos
- arxiv url: http://arxiv.org/abs/2003.13743v1
- Date: Mon, 30 Mar 2020 18:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:14:44.951470
- Title: Combining detection and tracking for human pose estimation in videos
- Title(参考訳): ビデオにおけるポーズ推定のための検出と追跡の組み合わせ
- Authors: Manchen Wang, Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では,ビデオにおける人物のポーズ推定とトラッキングの課題に対処する新しいトップダウン手法を提案する。
本手法は人体検知器の性能に制限されず, 局所化されていない人体のポーズを予測できる。
当社のアプローチでは,共同検出とトラッキングの両面で,PoseTrack 2017と2018のデータセット,トップダウンとボトムダウンの全アプローチに対して,最先端の結果が得られています。
- 参考スコア(独自算出の注目度): 18.851860324105637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel top-down approach that tackles the problem of multi-person
human pose estimation and tracking in videos. In contrast to existing top-down
approaches, our method is not limited by the performance of its person detector
and can predict the poses of person instances not localized. It achieves this
capability by propagating known person locations forward and backward in time
and searching for poses in those regions. Our approach consists of three
components: (i) a Clip Tracking Network that performs body joint detection and
tracking simultaneously on small video clips; (ii) a Video Tracking Pipeline
that merges the fixed-length tracklets produced by the Clip Tracking Network to
arbitrary length tracks; and (iii) a Spatial-Temporal Merging procedure that
refines the joint locations based on spatial and temporal smoothing terms.
Thanks to the precision of our Clip Tracking Network and our merging procedure,
our approach produces very accurate joint predictions and can fix common
mistakes on hard scenarios like heavily entangled people. Our approach achieves
state-of-the-art results on both joint detection and tracking, on both the
PoseTrack 2017 and 2018 datasets, and against all top-down and bottom-down
approaches.
- Abstract(参考訳): 本稿では,ビデオにおける人物のポーズ推定とトラッキングの課題に対処する新しいトップダウン手法を提案する。
従来のトップダウン手法とは対照的に,本手法は人検出器の性能に制限されず,局所化されていない人物のポーズを予測することができる。
この能力は、既知の人物の位置を前後に伝播し、それらの地域のポーズを探すことで実現される。
私たちのアプローチは3つのコンポーネントで構成されています。
(i)小型ビデオクリップ上で身体関節検出と追跡を同時に行うクリップ追跡ネットワーク
(ii)Clip Tracking Networkが生成する固定長トラックレットを任意の長さトラックにマージするビデオ追跡パイプライン
(iii)空間的・時間的平滑化項に基づいて関節の位置を洗練する空間的・時空間的マージ手順。
我々のClip Tracking Networkの精度とマージ手順のおかげで、我々のアプローチは非常に正確な共同予測が得られ、重く絡み合った人々のような困難なシナリオでよくある誤りを修正することができる。
当社のアプローチは、共同検出とトラッキングの両方、PoseTrack 2017と2018両方のデータセット、トップダウンとボトムダウンのアプローチに対する最先端の結果を実現しています。
関連論文リスト
- Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Improving Multi-Person Pose Tracking with A Confidence Network [37.84514614455588]
我々は、人間の検出とポーズ推定を改善するために、新しいキーポイント信頼ネットワークと追跡パイプラインを開発する。
具体的には、キーポイント信頼ネットワークは、各キーポイントが閉鎖されているかどうかを決定するように設計されている。
追従パイプラインでは,Bbox-revisionモジュールが欠落検出を低減し,ID-retrieveモジュールが損失軌跡を補正する。
論文 参考訳(メタデータ) (2023-10-29T06:36:27Z) - Multi-view Tracking Using Weakly Supervised Human Motion Prediction [60.972708589814125]
さらに効果的なアプローチは、時間とともに人々の動きを予測し、それらから個々のフレームにおける人々の存在を推定することである、と我々は主張する。
これにより、時間とともに、また1つの時間フレームのビューにわたって一貫性を強制できる。
PETS2009およびWILDTRACKデータセットに対する我々のアプローチを検証するとともに、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T17:58:23Z) - Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet [24.852728097115744]
RGBからの多人数ポーズ理解には、ポーズ推定、トラッキング、動き予測という3つの複雑なタスクが含まれる。
既存の作業の多くは、ひとつのタスクに集中するか、複数のタスクを別々に解決するためのマルチステージアプローチを採用するかのどちらかです。
Snipperは、複数の人物によるポーズ推定、追跡、動き予測を同時に行うための統合されたフレームワークである。
論文 参考訳(メタデータ) (2022-07-09T18:42:14Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Rank-based verification for long-term face tracking in crowded scenes [0.0]
混み合った状況下での作業を目的とした,長期的な多面追跡アーキテクチャを提案する。
我々のシステムは、顔検出と顔認識の分野での進歩の恩恵を受け、長期追跡を実現する。
論文 参考訳(メタデータ) (2021-07-28T11:15:04Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized
3D Point Clouds [59.98665358527686]
直交平面の分割自由結合推定法を提案する。
このような統合されたシーン探索は、セマンティックプレーンの検出や局所的およびグローバルなスキャンアライメントといった、多目的のアプリケーションを可能にする。
本実験は,壁面検出から6次元トラッキングに至るまで,様々なシナリオにおいて,我々のアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2020-01-21T06:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。