論文の概要: Reinforcement Learning-based Mixture of Vision Transformers for Video
Violence Recognition
- arxiv url: http://arxiv.org/abs/2310.03108v1
- Date: Wed, 4 Oct 2023 18:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:28:29.268698
- Title: Reinforcement Learning-based Mixture of Vision Transformers for Video
Violence Recognition
- Title(参考訳): 映像暴力認識のための強化学習に基づく視覚トランスフォーマーの混合
- Authors: Hamid Mohammadi, Ehsan Nazerfard, Tahereh Firoozi
- Abstract要約: 深層学習に基づくビデオ暴力認識は、正確だがスケーラブルな人間の暴力認識を懸念する。
現在、ほとんどの最先端のビデオ暴力認識研究は、CNNベースのモデルを使ってビデオを表現し分類している。
本稿では,新しいトランスフォーマーを用いたMixture of Experts (MoE)ビデオ暴力認識システムを提案する。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video violence recognition based on deep learning concerns accurate yet
scalable human violence recognition. Currently, most state-of-the-art video
violence recognition studies use CNN-based models to represent and categorize
videos. However, recent studies suggest that pre-trained transformers are more
accurate than CNN-based models on various video analysis benchmarks. Yet these
models are not thoroughly evaluated for video violence recognition. This paper
introduces a novel transformer-based Mixture of Experts (MoE) video violence
recognition system. Through an intelligent combination of large vision
transformers and efficient transformer architectures, the proposed system not
only takes advantage of the vision transformer architecture but also reduces
the cost of utilizing large vision transformers. The proposed architecture
maximizes violence recognition system accuracy while actively reducing
computational costs through a reinforcement learning-based router. The
empirical results show the proposed MoE architecture's superiority over
CNN-based models by achieving 92.4% accuracy on the RWF dataset.
- Abstract(参考訳): 深層学習に基づくビデオ暴力認識は正確かつスケーラブルな人間の暴力認識である。
現在、ほとんどの最先端のビデオ暴力認識研究は、CNNベースのモデルを使ってビデオを表現し分類している。
しかし、近年の研究では、様々なビデオ解析ベンチマークにおいて、事前学習されたトランスフォーマーはcnnベースのモデルよりも正確であることが示唆されている。
しかし、これらのモデルはビデオ暴力認識のために徹底的に評価されていない。
本稿では,トランスフォーマーを用いたMixture of Experts (MoE)ビデオ暴力認識システムを提案する。
大きな視覚変換器と効率的な変換器アーキテクチャのインテリジェントな組み合わせにより、提案システムは視覚変換器アーキテクチャを利用するだけでなく、大きな視覚変換器を利用するコストを削減できる。
提案アーキテクチャは、暴力認識システムの精度を最大化しつつ、強化学習ベースルータによる計算コストを積極的に削減する。
実験の結果、提案したMoEアーキテクチャは、RWFデータセットで92.4%の精度でCNNベースのモデルよりも優れていることが示された。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Transformers in Unsupervised Structure-from-Motion [19.43053045216986]
トランスフォーマーはディープラーニングベースのコンピュータビジョンに革命をもたらし、パフォーマンスが向上し、自然の腐敗や敵の攻撃に対する堅牢性も向上した。
本研究では, モノクロ画素の深度, エゴ車両のトランスフォーメーションと回転, カメラの焦点長と主点を同時に予測する, 頑健なトランスフォーマーに基づくモノクロSfM法を提案する。
我々の研究は、トランスフォーマーベースのアーキテクチャは、自然な汚職や標的外攻撃に対してより堅牢でありながら、同等のパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2023-12-16T20:00:34Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - Towards Training Stronger Video Vision Transformers for
EPIC-KITCHENS-100 Action Recognition [27.760120524736678]
EPIC-KITCHENS-100行動認識データセット上で,より強力な映像ビジョン変換器をトレーニングするための実験結果を示す。
単一のViViTモデルはEPIC-KITCHENS-100データセットの検証セットで47.4%のパフォーマンスを達成する。
ビデオトランスフォーマーは,動詞-名詞行動予測タスクにおいて,名詞を予測するのに特に優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-09T13:26:02Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。