論文の概要: ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2310.14416v1
- Date: Sun, 22 Oct 2023 21:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:02:40.509010
- Title: ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition
- Title(参考訳): ConViViT - 人間の活動認識のための畳み込みと因子化された自己認識を組み合わせたディープニューラルネットワーク
- Authors: Rachid Reda Dokkar, Faten Chaieb, Hassen Drira and Arezki Aberkane
- Abstract要約: RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
- 参考スコア(独自算出の注目度): 3.6321891270689055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Transformer architecture has gained significant popularity in computer
vision tasks due to its capacity to generalize and capture long-range
dependencies. This characteristic makes it well-suited for generating
spatiotemporal tokens from videos. On the other hand, convolutions serve as the
fundamental backbone for processing images and videos, as they efficiently
aggregate information within small local neighborhoods to create spatial tokens
that describe the spatial dimension of a video. While both CNN-based
architectures and pure transformer architectures are extensively studied and
utilized by researchers, the effective combination of these two backbones has
not received comparable attention in the field of activity recognition. In this
research, we propose a novel approach that leverages the strengths of both CNNs
and Transformers in an hybrid architecture for performing activity recognition
using RGB videos. Specifically, we suggest employing a CNN network to enhance
the video representation by generating a 128-channel video that effectively
separates the human performing the activity from the background. Subsequently,
the output of the CNN module is fed into a transformer to extract
spatiotemporal tokens, which are then used for classification purposes. Our
architecture has achieved new SOTA results with 90.05 \%, 99.6\%, and 95.09\%
on HMDB51, UCF101, and ETRI-Activity3D respectively.
- Abstract(参考訳): Transformerアーキテクチャは、長距離依存の一般化とキャプチャ能力のため、コンピュータビジョンタスクにおいて大きな人気を集めている。
この特徴はビデオから時空間トークンを生成するのに適している。
一方、畳み込みは画像や動画を処理するための基本的なバックボーンとなり、小さな地域内の情報を効率的に集約し、ビデオの空間的次元を記述する空間的トークンを作成する。
CNNベースのアーキテクチャと純粋なトランスフォーマーアーキテクチャの両方が研究者によって広く研究され、利用されているが、これらの2つのバックボーンの効果的な組み合わせは、活動認識の分野では同等の注目を集めていない。
本研究では,RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
具体的には,cnnネットワークを用いて128チャンネルのビデオを生成し,その動作を背景から効果的に分離することを提案する。
その後、cnnモジュールの出力は、時空間トークンを抽出するためにトランスに供給され、分類の目的で使用される。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 \%, 99.6\%, 95.09\%のSOTA結果を得た。
関連論文リスト
- Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human
Activity Recognition in Videos [6.117917355232902]
本稿では,人間行動認識のための2つのトランスフォーマーニューラルネットワークを提案し,設計する。
ReT(Recurrent Transformer)は、データのシーケンスの予測に使用される特殊なニューラルネットワークであり、ViT(Vision Transformer)は画像から有能な特徴を抽出するために最適化されたビジョントランスである。
我々は,提案するトランスフォーマーニューラルネットワークと,現在のCNNおよびRNNに基づく人間活動認識モデルとの比較を,速度と精度の観点から行った。
論文 参考訳(メタデータ) (2022-08-16T20:03:53Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。