論文の概要: Evaluating Transformers for Lightweight Action Recognition
- arxiv url: http://arxiv.org/abs/2111.09641v1
- Date: Thu, 18 Nov 2021 11:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:16:01.729492
- Title: Evaluating Transformers for Lightweight Action Recognition
- Title(参考訳): 軽量動作認識のための変圧器の評価
- Authors: Raivo Koot, Markus Hennerbichler, Haiping Lu
- Abstract要約: 13の動画トランスフォーマーとベースラインを3つの大規模データセットと10のハードウェアデバイスでベンチマークします。
コンボリューションバックボーンを増強する複合トランスは, 軽量な動作認識に最適であることを示す。
実験では、現在のビデオトランスフォーマーは従来の畳み込みベースラインと同等の軽量なアクション認識がまだできないと結論付けている。
- 参考スコア(独自算出の注目度): 7.509129971169722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video action recognition, transformers consistently reach state-of-the-art
accuracy. However, many models are too heavyweight for the average researcher
with limited hardware resources. In this work, we explore the limitations of
video transformers for lightweight action recognition. We benchmark 13 video
transformers and baselines across 3 large-scale datasets and 10 hardware
devices. Our study is the first to evaluate the efficiency of action
recognition models in depth across multiple devices and train a wide range of
video transformers under the same conditions. We categorize current methods
into three classes and show that composite transformers that augment
convolutional backbones are best at lightweight action recognition, despite
lacking accuracy. Meanwhile, attention-only models need more motion modeling
capabilities and stand-alone attention block models currently incur too much
latency overhead. Our experiments conclude that current video transformers are
not yet capable of lightweight action recognition on par with traditional
convolutional baselines, and that the previously mentioned shortcomings need to
be addressed to bridge this gap. Code to reproduce our experiments will be made
publicly available.
- Abstract(参考訳): ビデオアクション認識では、トランスフォーマーは常に最先端の精度に達する。
しかし、多くのモデルはハードウェアリソースが限られている平均的な研究者には重すぎる。
本研究では,軽量動作認識のためのビデオトランスフォーマーの限界について検討する。
13の動画トランスフォーマーとベースラインを3つの大規模データセットと10のハードウェアデバイスでベンチマークします。
本研究は,複数のデバイスにまたがる動作認識モデルの効率性を評価し,同じ条件下で広範囲のビデオトランスフォーマーを訓練する最初の試みである。
提案手法を3つのクラスに分類し, コンボリューションバックボーンを増強する複合トランスフォーマーは, 精度に欠けるにもかかわらず, 軽量な動作認識に最適であることを示す。
一方、注目のみのモデルには、より多くのモーションモデリング機能と、現在過度の遅延を発生させているスタンドアロンのアテンションブロックモデルが必要である。
我々の実験では、現在のビデオトランスフォーマーは従来の畳み込みベースラインと同等の軽量な動作認識能力を持っておらず、上記の欠点は、このギャップを埋めるために対処する必要があると結論付けている。
私たちの実験を再現するコードは公開されます。
関連論文リスト
- Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。