論文の概要: Action Transformer: A Self-Attention Model for Short-Time Human Action
Recognition
- arxiv url: http://arxiv.org/abs/2107.00606v1
- Date: Thu, 1 Jul 2021 16:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:55:53.695625
- Title: Action Transformer: A Self-Attention Model for Short-Time Human Action
Recognition
- Title(参考訳): アクショントランスフォーマー : 短時間行動認識のためのセルフアテンションモデル
- Authors: Vittorio Mazzia, Simone Angarano, Francesco Salvetti, Federico
Angelini and Marcello Chiaberge
- Abstract要約: Action Transformer (AcT) は、畳み込み層、繰り返し層、注意層を混在させる、より精巧なネットワークを一貫して上回る自己意図型アーキテクチャである。
AcTは、小さな時間ウィンドウ上の2Dポーズ表現を利用し、正確で効果的なリアルタイムパフォーマンスのための低レイテンシソリューションを提供する。
- 参考スコア(独自算出の注目度): 5.123810256000945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks based purely on attention have been successful across
several domains, relying on minimal architectural priors from the designer. In
Human Action Recognition (HAR), attention mechanisms have been primarily
adopted on top of standard convolutional or recurrent layers, improving the
overall generalization capability. In this work, we introduce Action
Transformer (AcT), a simple, fully self-attentional architecture that
consistently outperforms more elaborated networks that mix convolutional,
recurrent, and attentive layers. In order to limit computational and energy
requests, building on previous human action recognition research, the proposed
approach exploits 2D pose representations over small temporal windows,
providing a low latency solution for accurate and effective real-time
performance. Moreover, we open-source MPOSE2021, a new large-scale dataset, as
an attempt to build a formal training and evaluation benchmark for real-time
short-time human action recognition. Extensive experimentation on MPOSE2021
with our proposed methodology and several previous architectural solutions
proves the effectiveness of the AcT model and poses the base for future work on
HAR.
- Abstract(参考訳): 純粋に注意に基づくディープニューラルネットワークは、設計者による最小限のアーキテクチャ優先に依存しているため、いくつかのドメインで成功を収めている。
人間行動認識(har)では、注意機構は主に標準畳み込み層や再帰層の上に採用され、全体的な一般化能力が向上している。
本研究では,畳み込み層,リカレント層,注意層を混合するより精巧なネットワークを一貫して上回る,単純で完全な自己完結型アーキテクチャであるaction transformer(act)を導入する。
従来のヒューマンアクション認識研究に基づいて,計算とエネルギーの要求を制限するため,提案手法では2次元ポーズ表現を小さな時間窓上で活用し,高精度かつ効果的なリアルタイム性能を実現するための低レイテンシソリューションを提供する。
さらに、リアルタイムな短時間の人行動認識のための正式なトレーニングと評価ベンチマークを構築するために、新しい大規模データセットであるMPOSE2021をオープンソース化した。
MPOSE2021の大規模実験は,提案手法と,それ以前のアーキテクチャソリューションにより,AcTモデルの有効性が証明され,今後のHAR研究の基盤となる。
関連論文リスト
- VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Surrogate-assisted Multi-objective Neural Architecture Search for
Real-time Semantic Segmentation [11.866947846619064]
ニューラルアーキテクチャサーチ(NAS)は、アーキテクチャ設計を自動化するための有望な道として登場した。
セマンティックセグメンテーションにNASを適用する際の課題を解決するために,サロゲート支援多目的手法を提案する。
提案手法は,人手による設計と他のNAS手法による自動設計の両方により,既存の最先端アーキテクチャを著しく上回るアーキテクチャを同定することができる。
論文 参考訳(メタデータ) (2022-08-14T10:18:51Z) - Human Activity Recognition Using Cascaded Dual Attention CNN and
Bi-Directional GRU Framework [3.3721926640077795]
視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つとして現れてきた。
本稿では,人間の行動認識における深部識別的空間的特徴と時間的特徴を利用した,計算的に効率的だが汎用的な空間時空間カスケードフレームワークを提案する。
提案手法は, 従来の動作認識手法と比較して, フレーム毎秒最大167倍の性能向上を実現している。
論文 参考訳(メタデータ) (2022-08-09T20:34:42Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Attention-Based Deep Learning Framework for Human Activity Recognition
with User Adaptation [5.629161809575013]
センサに基づく人間活動認識(HAR)は、センサ生成時系列データに基づいて人の行動を予測する必要がある。
純粋に注意に基づくメカニズムに基づく新しいディープラーニングフレームワーク、algnameを提案する。
提案した注目に基づくアーキテクチャは,従来のアプローチよりもはるかに強力であることを示す。
論文 参考訳(メタデータ) (2020-06-06T09:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。