論文の概要: Joint Learning On The Hierarchy Representation for Fine-Grained Human
Action Recognition
- arxiv url: http://arxiv.org/abs/2110.05853v1
- Date: Tue, 12 Oct 2021 09:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:51:19.965314
- Title: Joint Learning On The Hierarchy Representation for Fine-Grained Human
Action Recognition
- Title(参考訳): 人間の行動認識のための階層表現に関する共同学習
- Authors: Mei Chee Leong, Hui Li Tan, Haosong Zhang, Liyuan Li, Feng Lin, Joo
Hwee Lim
- Abstract要約: 微細な人間の行動認識はコンピュータビジョンにおける中核的な研究課題である。
本研究では,FinGym階層表現を利用して効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
FineGymデータセットに対する我々の結果は、91.80%のTop-1精度と88.46%の要素アクションの平均精度で、新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 13.088129408377918
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-grained human action recognition is a core research topic in computer
vision. Inspired by the recently proposed hierarchy representation of
fine-grained actions in FineGym and SlowFast network for action recognition, we
propose a novel multi-task network which exploits the FineGym hierarchy
representation to achieve effective joint learning and prediction for
fine-grained human action recognition. The multi-task network consists of three
pathways of SlowOnly networks with gradually increased frame rates for events,
sets and elements of fine-grained actions, followed by our proposed integration
layers for joint learning and prediction. It is a two-stage approach, where it
first learns deep feature representation at each hierarchical level, and is
followed by feature encoding and fusion for multi-task learning. Our empirical
results on the FineGym dataset achieve a new state-of-the-art performance, with
91.80% Top-1 accuracy and 88.46% mean accuracy for element actions, which are
3.40% and 7.26% higher than the previous best results.
- Abstract(参考訳): きめ細かい人間の行動認識は、コンピュータビジョンの主要な研究テーマである。
近年提案されている細粒度動作の階層表現に着想を得て,細粒度階層表現を活用し,細粒度動作認識のための効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
マルチタスクネットワークは,イベント,セット,要素のフレームレートを徐々に増加させ,協調学習と予測のための統合層を提案する,スローオンリーネットワークの3つの経路からなる。
これは2段階のアプローチであり、まず各階層レベルで深い特徴表現を学習し、その後にマルチタスク学習のための特徴エンコーディングと融合を行う。
FineGymデータセットに関する実験結果は、91.80%のTop-1精度と88.46%の平均的なエレメントアクションの精度で、新しい最先端のパフォーマンスを実現しています。
関連論文リスト
- A Multi-Task Deep Learning Approach for Sensor-based Human Activity
Recognition and Segmentation [4.987833356397567]
本稿では,この2つの課題を同時に解くために,新しいディープニューラルネットワークを提案する。
提案するネットワークは,選択的畳み込みを採用し,長時間ないし短時間の動作を分割するマルチスケールウィンドウを備えている。
提案手法は,アクティビティ認識とセグメンテーションの両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:34:28Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - First and Second Order Dynamics in a Hierarchical SOM system for Action
Recognition [0.0]
本稿では,自己組織型マップの階層構造と,行動分類を学習する独自のニューラルネットワークを用いた行動認識システムを提案する。
システムはkinectのような3dカメラからの入力を前処理し、関節の位置だけでなく、第1および第2次ダイナミクスに関する情報を利用する。
論文 参考訳(メタデータ) (2021-04-13T09:46:40Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Knowledge Integration Networks for Action Recognition [58.548331848942865]
我々は,アクション認識のためのメインブランチと,人間のパースとシーン認識のための2つの補助ブランチからなる3分岐アーキテクチャを設計する。
補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2段階の知識符号化機構を提案する。
KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
論文 参考訳(メタデータ) (2020-02-18T10:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。