論文の概要: A Baseline Framework for Part-level Action Parsing and Action
Recognition
- arxiv url: http://arxiv.org/abs/2110.03368v1
- Date: Thu, 7 Oct 2021 12:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:41:51.258714
- Title: A Baseline Framework for Part-level Action Parsing and Action
Recognition
- Title(参考訳): 部分レベル動作解析と行動認識のためのベースラインフレームワーク
- Authors: Xiaodong Chen, Xinchen Liu, Kun Liu, Wu Liu, Tao Mei
- Abstract要約: 本報告では,ICCV DeeperAction Workshop 2021 におけるパートレベル動作解析における Kinetics-TPS Track の2位解について紹介する。
我々のエントリは、おもにYOLOF、人間のポーズ推定のためのHRNet、ビデオレベルのアクション認識とフレームレベルの部分状態解析のためのCSNに基づいています。
競技では,Kinetics-TPSのテストセットで61.37%のmAPを達成した。
- 参考スコア(独自算出の注目度): 67.38737952295504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report introduces our 2nd place solution to Kinetics-TPS Track
on Part-level Action Parsing in ICCV DeeperAction Workshop 2021. Our entry is
mainly based on YOLOF for instance and part detection, HRNet for human pose
estimation, and CSN for video-level action recognition and frame-level part
state parsing. We describe technical details for the Kinetics-TPS dataset,
together with some experimental results. In the competition, we achieved 61.37%
mAP on the test set of Kinetics-TPS.
- Abstract(参考訳): ICCV DeeperAction Workshop 2021におけるパートレベルアクション解析におけるKinetics-TPS Trackに対する第2位ソリューションを紹介します。
我々のエントリは主に、例えばYOLOF、人間のポーズ推定のためのHRNet、ビデオレベルのアクション認識とフレームレベルの部分状態解析のためのCSNに基づいています。
Kinetics-TPSデータセットの技術的詳細と実験結果について述べる。
競技ではKinetics-TPSのテストセットで61.37%のmAPを達成した。
関連論文リスト
- 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - USTHB at NADI 2023 shared task: Exploring Preprocessing and Feature
Engineering Strategies for Arabic Dialect Identification [0.0]
本研究では,表面前処理,形態前処理,FastTextベクトルモデル,TF-IDF特性の重み付け結合の影響について検討する。
評価段階では,F1スコアが62.51%となる,注目すべき結果が得られた。
論文 参考訳(メタデータ) (2023-12-16T20:23:53Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Technical Report: Disentangled Action Parsing Networks for Accurate
Part-level Action Parsing [65.87931036949458]
Part-level Action Parsingは、ビデオにおけるアクション認識を促進するための部分状態解析を目的としている。
DAP(disentangled action parsing)というシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-05T02:29:32Z) - Skeleton-Split Framework using Spatial Temporal Graph Convolutional
Networks for Action Recogntion [2.132096006921048]
本研究の目的は,ST-GCNモデルを用いた日常生活活動の認識である。
接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。
インデックス分割分割戦略を用いて、73.25 %トップ-1の精度を実現する。
論文 参考訳(メタデータ) (2021-11-04T18:59:02Z) - Part-aware Panoptic Segmentation [3.342126234995932]
Part-Aware Panoptic (PPS)は、複数の抽象化レベルでシーンを理解することを目的としている。
一般的に使われている2つのデータセット、CityscapesとPascal VOCに一貫したアノテーションを提供します。
パートアウェア・パノプティクス(Part-Aware Panoptic Quality, PartPQ)と呼ばれるPSSを評価するための単一の指標を提案する。
論文 参考訳(メタデータ) (2021-06-11T12:48:07Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。