論文の概要: Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing
- arxiv url: http://arxiv.org/abs/2111.03225v1
- Date: Fri, 5 Nov 2021 02:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:08:25.775229
- Title: Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing
- Title(参考訳): 技術報告:精密部分レベルアクションパーシングのためのアンタングル型アクションパーシングネットワーク
- Authors: Xuanhan Wang and Xiaojia Chen and Lianli Gao and Lechao Chen and
Jingkuan Song
- Abstract要約: Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
- 参考スコア(独自算出の注目度): 65.87931036949458
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Part-level Action Parsing aims at part state parsing for boosting action
recognition in videos. Despite of dramatic progresses in the area of video
classification research, a severe problem faced by the community is that the
detailed understanding of human actions is ignored. Our motivation is that
parsing human actions needs to build models that focus on the specific problem.
We present a simple yet effective approach, named disentangled action parsing
(DAP). Specifically, we divided the part-level action parsing into three
stages: 1) person detection, where a person detector is adopted to detect all
persons from videos as well as performs instance-level action recognition; 2)
Part parsing, where a part-parsing model is proposed to recognize human parts
from detected person images; and 3) Action parsing, where a multi-modal action
parsing network is used to parse action category conditioning on all detection
results that are obtained from previous stages. With these three major models
applied, our approach of DAP records a global mean of $0.605$ score in 2021
Kinetics-TPS Challenge.
- Abstract(参考訳): Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
映像分類研究の分野における劇的な進歩にもかかわらず、コミュニティが直面している深刻な問題は、人間の行動の詳細な理解が無視されていることである。
私たちのモチベーションは、人間の行動を解析するには、特定の問題に焦点を当てたモデルを構築する必要があります。
本稿では,DAP(disentangled action parsing)というシンプルなアプローチを提案する。
具体的には,パートレベルの動作解析を3段階に分けた。
1) 映像からすべての人物を検知し、かつ、事例レベルの行動認識を行うために、人物検出を採用する。
2) 検出された人物画像から人間の部分を認識するための部分パースモデルが提案されている部分パース
3) アクションパース、マルチモーダルアクションパースネットワークを使用して、前段から得られたすべての検出結果に基づいてアクションカテゴリ条件付けを解析する。
これら3つの主要なモデルを適用することで、DAPのアプローチは2021 Kinetics-TPS Challengeで世界平均0.605ドルのスコアを記録します。
関連論文リスト
- Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Progression-Guided Temporal Action Detection in Videos [20.02711550239915]
本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2023-08-18T03:14:05Z) - Integrating Human Parsing and Pose Network for Human Action Recognition [12.308394270240463]
動作認識のための新しいモダリティとして,人間の解析特徴マップを導入する。
本稿では,行動認識のためのヒューマンパーシングとポースネットワーク(IPP-Net)の統合を提案する。
IPP-Netは、スケルトンと人間のパース機能マップの両方を活用する最初の方法である。
論文 参考訳(メタデータ) (2023-07-16T07:58:29Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - AIParsing: Anchor-free Instance-level Human Parsing [98.80740676794254]
我々は、アンカーフリーで画素レベルで解決可能なインスタンスレベルのヒューマンパーシングネットワークを設計した。
ボックス予測のためのアンカーフリー検出ヘッドと、人間のセグメンテーションのためのエッジ誘導パーシングヘッドの2つの単純なサブネットワークで構成されている。
提案手法は,最先端のワンステージトップダウン方式よりも優れたグローバルレベルおよびインスタンスレベルの性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T12:19:32Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - End-to-end One-shot Human Parsing [91.5113227694443]
One-shot Human Parsing (OSHP) タスクでは、テスト例によって定義されたオープンなクラスに人間を解析する必要がある。
EOP-Net (End-to-end One-shot Human Parsing Network) が提案されている。
EOP-Netは、一発セグメンテーションモデルを大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-04T01:35:50Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。