論文の概要: Integrating Human Parsing and Pose Network for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2307.07977v1
- Date: Sun, 16 Jul 2023 07:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:21:20.764168
- Title: Integrating Human Parsing and Pose Network for Human Action Recognition
- Title(参考訳): 行動認識のためのヒューマンパーシングとポースネットワークの統合
- Authors: Runwei Ding, Yuhang Wen, Jinfu Liu, Nan Dai, Fanyang Meng, Mengyuan
Liu
- Abstract要約: 動作認識のための新しいモダリティとして,人間の解析特徴マップを導入する。
本稿では,行動認識のためのヒューマンパーシングとポースネットワーク(IPP-Net)の統合を提案する。
IPP-Netは、スケルトンと人間のパース機能マップの両方を活用する最初の方法である。
- 参考スコア(独自算出の注目度): 12.308394270240463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human skeletons and RGB sequences are both widely-adopted input modalities
for human action recognition. However, skeletons lack appearance features and
color data suffer large amount of irrelevant depiction. To address this, we
introduce human parsing feature map as a novel modality, since it can
selectively retain spatiotemporal features of the body parts, while filtering
out noises regarding outfits, backgrounds, etc. We propose an Integrating Human
Parsing and Pose Network (IPP-Net) for action recognition, which is the first
to leverage both skeletons and human parsing feature maps in dual-branch
approach. The human pose branch feeds compact skeletal representations of
different modalities in graph convolutional network to model pose features. In
human parsing branch, multi-frame body-part parsing features are extracted with
human detector and parser, which is later learnt using a convolutional
backbone. A late ensemble of two branches is adopted to get final predictions,
considering both robust keypoints and rich semantic body-part features.
Extensive experiments on NTU RGB+D and NTU RGB+D 120 benchmarks consistently
verify the effectiveness of the proposed IPP-Net, which outperforms the
existing action recognition methods. Our code is publicly available at
https://github.com/liujf69/IPP-Net-Parsing .
- Abstract(参考訳): ヒトの骨格とrgb配列は共に、人間の行動認識に広く採用されている入力モードである。
しかし、骨格は外観に欠けており、色データは大量の無関係な描写に苦しむ。
そこで本研究では,身体部位の時空間的特徴を選択的に保ちつつ,衣装や背景などに関するノイズを除去できるため,人間のパース特徴マップを新しいモダリティとして導入する。
本稿では,アクション認識のためのヒューマン・パース・アンド・ポーズ・ネットワーク(ipp-net)を提案する。
人間のポーズ枝は、グラフ畳み込みネットワークにおける異なるモダリティのコンパクトな骨格表現を与え、ポーズ特徴をモデル化する。
人間のパーシングブランチでは、多フレームのボディ部分解析機能は人間の検出器とパーサで抽出され、後に畳み込みバックボーンを用いて学習される。
2つの分岐の遅いアンサンブルは、ロバストなキーポイントと豊富なセマンティックなボディーパート機能の両方を考慮して、最終的な予測を得るために採用されます。
NTU RGB+D と NTU RGB+D 120 ベンチマークの大規模な実験は、提案した IPP-Net の有効性を一貫して検証し、既存の行動認識法より優れている。
私たちのコードはhttps://github.com/liujf69/IPP-Net-Parsingで公開されています。
関連論文リスト
- DROP: Decouple Re-Identification and Human Parsing with Task-specific
Features for Occluded Person Re-identification [15.910080319118498]
本稿では,隠蔽者再識別(ReID)のためのDouple Re-identificatiOnとHuman Parsing(DROP)手法について紹介する。
ReIDと人間の構文解析の同時学習にグローバルな特徴を用いる主流のアプローチとは異なり、DROPは、前者の劣る性能はReIDと人間の解析機能の異なる要件に起因すると主張している。
実験の結果、DROPの有効性、特にOccluded-Dukeで76.8%のランク1の精度を達成し、2つの主要な方法を超えた。
論文 参考訳(メタデータ) (2024-01-31T17:54:43Z) - Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文 参考訳(メタデータ) (2024-01-04T08:43:41Z) - Parsing is All You Need for Accurate Gait Recognition in the Wild [51.206166843375364]
本稿では,GPS(Gait Parsing Sequence)という新しい歩行表現を提案する。
GPSは、ビデオフレームから抽出された微細な人間のセグメンテーションのシーケンスなので、より高い情報エントロピーを持つ。
また,ParsingGaitという,新しいパーシングに基づく歩行認識フレームワークを提案する。
実験結果から,GPS表現による精度の向上とParsingGaitの優越性が示唆された。
論文 参考訳(メタデータ) (2023-08-31T13:57:38Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing [65.87931036949458]
Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-05T02:29:32Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z) - GPRAR: Graph Convolutional Network based Pose Reconstruction and Action
Recognition for Human Trajectory Prediction [1.2891210250935146]
既存の予測モデルは、観察がしばしば騒がしい現実世界の設定でエラーを起こしやすい。
GPRARは、人間の軌道予測のためのグラフ畳み込みネットワークベースのポーズ再構築とアクション認識です。
JAADおよびTITANデータセットのノイズ観測により,GPRARは予測精度を最大22%,50%向上させることを示した。
論文 参考訳(メタデータ) (2021-03-25T20:12:14Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。