論文の概要: OpenPifPaf: Composite Fields for Semantic Keypoint Detection and
Spatio-Temporal Association
- arxiv url: http://arxiv.org/abs/2103.02440v1
- Date: Wed, 3 Mar 2021 14:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:58:59.617493
- Title: OpenPifPaf: Composite Fields for Semantic Keypoint Detection and
Spatio-Temporal Association
- Title(参考訳): OpenPifPaf:セマンティックキーポイント検出とテンポラルアソシエーションのための複合フィールド
- Authors: Sven Kreiss, Lorenzo Bertoni, Alexandre Alahi
- Abstract要約: イメージベースの知覚タスクは、例えば、検出、関連付け、セマンティックキーポイントとして定式化することができる。
人間の体は 推定と追跡をする
一つの段階における意味的および時間的キーポイント関連を共同で検出する一般的な枠組みを提案する。
また,本手法は車や動物などのキーポイントのクラスに一般化し,総合的な知覚の枠組みを提供することを示す。
- 参考スコア(独自算出の注目度): 90.39247595214998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many image-based perception tasks can be formulated as detecting, associating
and tracking semantic keypoints, e.g., human body pose estimation and tracking.
In this work, we present a general framework that jointly detects and forms
spatio-temporal keypoint associations in a single stage, making this the first
real-time pose detection and tracking algorithm. We present a generic neural
network architecture that uses Composite Fields to detect and construct a
spatio-temporal pose which is a single, connected graph whose nodes are the
semantic keypoints (e.g., a person's body joints) in multiple frames. For the
temporal associations, we introduce the Temporal Composite Association Field
(TCAF) which requires an extended network architecture and training method
beyond previous Composite Fields. Our experiments show competitive accuracy
while being an order of magnitude faster on multiple publicly available
datasets such as COCO, CrowdPose and the PoseTrack 2017 and 2018 datasets. We
also show that our method generalizes to any class of semantic keypoints such
as car and animal parts to provide a holistic perception framework that is well
suited for urban mobility such as self-driving cars and delivery robots.
- Abstract(参考訳): 多くの画像ベースの知覚タスクは、人間のポーズ推定やトラッキングなど、セマンティックキーポイントの検出、関連付け、追跡として定式化することができる。
本研究では, 時空間的キーポイント関係を単一段で検出・形成する汎用フレームワークを提案し, これが最初のリアルタイムポーズ検出・追跡アルゴリズムとなった。
本稿では、複合フィールドを用いて、ノードが複数のフレームのセマンティックキーポイント(例えば、人の体関節)である単一の連結グラフである時空間ポーズを検出し、構築する汎用ニューラルネットワークアーキテクチャを提案する。
時間的関連性については,従来より拡張されたネットワークアーキテクチャとトレーニング手法を必要とするTCAF(Temporal Composite Association Field)を導入する。
実験では、COCO、CrowdPose、PoseTrack 2017、2018データセットなど、複数の公開データセットで、桁違いに高速な競合精度を示しました。
また,本手法は,自動車や動物部品などのセマンティックキーポイントを一般化し,自動運転車や配送ロボットなどの都市移動に適した全体認識フレームワークを提供することを示した。
関連論文リスト
- Temporal Embeddings: Scalable Self-Supervised Temporal Representation
Learning from Spatiotemporal Data for Multimodal Computer Vision [1.4127889233510498]
移動活動時系列に基づいて景観を階層化する新しい手法を提案する。
ピクセルワイズ埋め込みは、タスクベースのマルチモーダルモデリングに使用できるイメージライクなチャネルに変換される。
論文 参考訳(メタデータ) (2023-10-16T02:53:29Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Pose-based Modular Network for Human-Object Interaction Detection [5.6397911482914385]
提案するPose-based Modular Network (PMN) は,絶対的なポーズ特徴と相対的な空間的ポーズ特徴を探索し,HOI検出を改善する。
提案手法を評価するため,VS-GATと呼ばれる最新技術モデルと組み合わせ,2つの公開ベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-08-05T10:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。