論文の概要: ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human
Activity Recognition in Videos
- arxiv url: http://arxiv.org/abs/2208.07929v1
- Date: Tue, 16 Aug 2022 20:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:51:36.006397
- Title: ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human
Activity Recognition in Videos
- Title(参考訳): ViT-ReT:ビデオにおける人間の活動認識のためのビジョンとリカレントトランスフォーマーニューラルネットワーク
- Authors: James Wensel, Hayat Ullah, Arslan Munir, Erik Blasch
- Abstract要約: 本稿では,人間行動認識のための2つのトランスフォーマーニューラルネットワークを提案し,設計する。
ReT(Recurrent Transformer)は、データのシーケンスの予測に使用される特殊なニューラルネットワークであり、ViT(Vision Transformer)は画像から有能な特徴を抽出するために最適化されたビジョントランスである。
我々は,提案するトランスフォーマーニューラルネットワークと,現在のCNNおよびRNNに基づく人間活動認識モデルとの比較を,速度と精度の観点から行った。
- 参考スコア(独自算出の注目度): 6.117917355232902
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human activity recognition is an emerging and important area in computer
vision which seeks to determine the activity an individual or group of
individuals are performing. The applications of this field ranges from
generating highlight videos in sports, to intelligent surveillance and gesture
recognition. Most activity recognition systems rely on a combination of
convolutional neural networks (CNNs) to perform feature extraction from the
data and recurrent neural networks (RNNs) to determine the time dependent
nature of the data. This paper proposes and designs two transformer neural
networks for human activity recognition: a recurrent transformer (ReT), a
specialized neural network used to make predictions on sequences of data, as
well as a vision transformer (ViT), a transformer optimized for extracting
salient features from images, to improve speed and scalability of activity
recognition. We have provided an extensive comparison of the proposed
transformer neural networks with the contemporary CNN and RNN-based human
activity recognition models in terms of speed and accuracy.
- Abstract(参考訳): 人間の活動認識は、個人または個人の集団が実行している活動を決定するためにコンピュータビジョンにおいて、新しく重要な領域である。
この分野の応用は、スポーツにおけるハイライトビデオの生成から、インテリジェントな監視やジェスチャー認識まで幅広い。
ほとんどのアクティビティ認識システムは、データから特徴抽出を行うために畳み込みニューラルネットワーク(CNN)と、データの時間依存性の性質を決定するためにリカレントニューラルネットワーク(RNN)の組み合わせに依存している。
本稿では,人間活動認識のための2つのトランスフォーマリンネットワークを提案する。recurrent transformer (ret) は,データシーケンスの予測を行うために使用される専用ニューラルネットワークであり,また視覚トランスフォーマ (vit) は画像から突出した特徴を抽出するのに最適化され,動作認識の速度と拡張性を向上させる。
我々は,提案するトランスフォーマーニューラルネットワークと,現在のCNNおよびRNNに基づく人間活動認識モデルとの比較を,速度と精度の観点から行った。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Design and development of opto-neural processors for simulation of
neural networks trained in image detection for potential implementation in
hybrid robotics [0.0]
リビングニューラルネットワークは、消費電力の低減、処理の高速化、生物学的リアリズムの利点を提供する。
本研究は,オプトジェネティクスによる精密アクティベーションを用いたSTDPベースのアルゴリズムを逆伝播させることにより,間接的に訓練されたシミュレーション型生きたニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T04:42:49Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - Training Robust Spiking Neural Networks with ViewPoint Transform and
SpatioTemporal Stretching [4.736525128377909]
本稿では,新しいデータ拡張手法であるViewPoint Transform and Spatio Stretching(VPT-STS)を提案する。
時間領域の回転中心と角度を変換し、異なる視点からサンプルを生成することにより、スパイクニューラルネットワークの堅牢性を向上させる。
有意なニューロモルフィックデータセットの実験により、VPT-STSは多点表現に広く有効であり、純粋な空間幾何学的変換を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-03-14T03:09:56Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Event-based Video Reconstruction via Potential-assisted Spiking Neural
Network [48.88510552931186]
バイオインスパイアされたニューラルネットワークは、イベント駆動ハードウェア上での計算効率の向上につながる可能性がある。
完全スパイキングニューラルネットワーク(EVSNN)に基づくイベントベースビデオ再構成フレームワークを提案する。
スパイクニューロンは、そのような時間依存タスクを完了させるために有用な時間情報(メモリ)を格納する可能性がある。
論文 参考訳(メタデータ) (2022-01-25T02:05:20Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - A Study On the Effects of Pre-processing On Spatio-temporal Action
Recognition Using Spiking Neural Networks Trained with STDP [0.0]
ビデオ分類タスクにおいて,教師なし学習手法で訓練したSNNの行動を研究することが重要である。
本稿では,時間情報を静的な形式に変換し,遅延符号化を用いて視覚情報をスパイクに変換する手法を提案する。
スパイクニューラルネットワークを用いた行動認識における行動の形状と速度の類似性の効果を示す。
論文 参考訳(メタデータ) (2021-05-31T07:07:48Z) - Neuroevolution of a Recurrent Neural Network for Spatial and Working
Memory in a Simulated Robotic Environment [57.91534223695695]
我々は,ラットで観察される行動と神経活動を再現する進化的アルゴリズムを用いて,生物学的に有意なリカレントニューラルネットワーク(RNN)でウェイトを進化させた。
提案手法は, 進化したRNNの動的活動が, 興味深く複雑な認知行動をどのように捉えているかを示す。
論文 参考訳(メタデータ) (2021-02-25T02:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。