論文の概要: Explore Human Parsing Modality for Action Recognition
- arxiv url: http://arxiv.org/abs/2401.02138v1
- Date: Thu, 4 Jan 2024 08:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:31:35.899853
- Title: Explore Human Parsing Modality for Action Recognition
- Title(参考訳): 行動認識のためのヒューマンパーシングモダリティの探索
- Authors: Jinfu Liu, Runwei Ding, Yuhang Wen, Nan Dai, Fanyang Meng, Shen Zhao,
Mengyuan Liu
- Abstract要約: 我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
- 参考スコア(独自算出の注目度): 17.624946657761996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal-based action recognition methods have achieved high success using
pose and RGB modality. However, skeletons sequences lack appearance depiction
and RGB images suffer irrelevant noise due to modality limitations. To address
this, we introduce human parsing feature map as a novel modality, since it can
selectively retain effective semantic features of the body parts, while
filtering out most irrelevant noise. We propose a new dual-branch framework
called Ensemble Human Parsing and Pose Network (EPP-Net), which is the first to
leverage both skeletons and human parsing modalities for action recognition.
The first human pose branch feeds robust skeletons in graph convolutional
network to model pose features, while the second human parsing branch also
leverages depictive parsing feature maps to model parsing festures via
convolutional backbones. The two high-level features will be effectively
combined through a late fusion strategy for better action recognition.
Extensive experiments on NTU RGB+D and NTU RGB+D 120 benchmarks consistently
verify the effectiveness of our proposed EPP-Net, which outperforms the
existing action recognition methods. Our code is available at:
https://github.com/liujf69/EPP-Net-Action.
- Abstract(参考訳): マルチモーダルに基づく行動認識法はポーズとRGBモダリティを用いて高い成功を収めた。
しかし、スケルトン配列には外観の描写がなく、RGB画像はモダリティの制限により無関係なノイズを被る。
そこで本研究では,身体部位の効果的な意味的特徴を選択的に保ちつつ,無関係なノイズを除去できるため,人間のパース特徴マップを新しいモダリティとして導入する。
本稿では,人体と人体の両方の動作認識を初めて活用するEnsemble Human Parsing and Pose Network (EPP-Net) という,新しいデュアルブランチフレームワークを提案する。
第1の人間のポーズブランチは、グラフ畳み込みネットワークで頑丈な骨格を養って特徴をモデル化し、第2の人間のパーシングブランチは、描写的なパーシング特徴マップを活用して、畳み込みバックボーンを介して祭をモデル化する。
2つのハイレベルな機能は、アクション認識を改善するためにレイトフュージョン戦略によって効果的に結合される。
NTU RGB+D と NTU RGB+D 120 ベンチマークの大規模な実験は,提案した EPP-Net の有効性を一貫して検証している。
私たちのコードは、https://github.com/liujf69/EPP-Net-Actionで利用可能です。
関連論文リスト
- Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - Integrating Human Parsing and Pose Network for Human Action Recognition [12.308394270240463]
動作認識のための新しいモダリティとして,人間の解析特徴マップを導入する。
本稿では,行動認識のためのヒューマンパーシングとポースネットワーク(IPP-Net)の統合を提案する。
IPP-Netは、スケルトンと人間のパース機能マップの両方を活用する最初の方法である。
論文 参考訳(メタデータ) (2023-07-16T07:58:29Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。