論文の概要: OpenPifPaf: Composite Fields for Semantic Keypoint Detection and
Spatio-Temporal Association
- arxiv url: http://arxiv.org/abs/2103.02440v1
- Date: Wed, 3 Mar 2021 14:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:58:59.617493
- Title: OpenPifPaf: Composite Fields for Semantic Keypoint Detection and
Spatio-Temporal Association
- Title(参考訳): OpenPifPaf:セマンティックキーポイント検出とテンポラルアソシエーションのための複合フィールド
- Authors: Sven Kreiss, Lorenzo Bertoni, Alexandre Alahi
- Abstract要約: イメージベースの知覚タスクは、例えば、検出、関連付け、セマンティックキーポイントとして定式化することができる。
人間の体は 推定と追跡をする
一つの段階における意味的および時間的キーポイント関連を共同で検出する一般的な枠組みを提案する。
また,本手法は車や動物などのキーポイントのクラスに一般化し,総合的な知覚の枠組みを提供することを示す。
- 参考スコア(独自算出の注目度): 90.39247595214998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many image-based perception tasks can be formulated as detecting, associating
and tracking semantic keypoints, e.g., human body pose estimation and tracking.
In this work, we present a general framework that jointly detects and forms
spatio-temporal keypoint associations in a single stage, making this the first
real-time pose detection and tracking algorithm. We present a generic neural
network architecture that uses Composite Fields to detect and construct a
spatio-temporal pose which is a single, connected graph whose nodes are the
semantic keypoints (e.g., a person's body joints) in multiple frames. For the
temporal associations, we introduce the Temporal Composite Association Field
(TCAF) which requires an extended network architecture and training method
beyond previous Composite Fields. Our experiments show competitive accuracy
while being an order of magnitude faster on multiple publicly available
datasets such as COCO, CrowdPose and the PoseTrack 2017 and 2018 datasets. We
also show that our method generalizes to any class of semantic keypoints such
as car and animal parts to provide a holistic perception framework that is well
suited for urban mobility such as self-driving cars and delivery robots.
- Abstract(参考訳): 多くの画像ベースの知覚タスクは、人間のポーズ推定やトラッキングなど、セマンティックキーポイントの検出、関連付け、追跡として定式化することができる。
本研究では, 時空間的キーポイント関係を単一段で検出・形成する汎用フレームワークを提案し, これが最初のリアルタイムポーズ検出・追跡アルゴリズムとなった。
本稿では、複合フィールドを用いて、ノードが複数のフレームのセマンティックキーポイント(例えば、人の体関節)である単一の連結グラフである時空間ポーズを検出し、構築する汎用ニューラルネットワークアーキテクチャを提案する。
時間的関連性については,従来より拡張されたネットワークアーキテクチャとトレーニング手法を必要とするTCAF(Temporal Composite Association Field)を導入する。
実験では、COCO、CrowdPose、PoseTrack 2017、2018データセットなど、複数の公開データセットで、桁違いに高速な競合精度を示しました。
また,本手法は,自動車や動物部品などのセマンティックキーポイントを一般化し,自動運転車や配送ロボットなどの都市移動に適した全体認識フレームワークを提供することを示した。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。