論文の概要: VideoLightFormer: Lightweight Action Recognition using Transformers
- arxiv url: http://arxiv.org/abs/2107.00451v1
- Date: Thu, 1 Jul 2021 13:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:56:17.563255
- Title: VideoLightFormer: Lightweight Action Recognition using Transformers
- Title(参考訳): VideoLightFormer: トランスフォーマーを用いた軽量アクション認識
- Authors: Raivo Koot, Haiping Lu
- Abstract要約: 本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
- 参考スコア(独自算出の注目度): 8.871042314510788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient video action recognition remains a challenging problem. One large
model after another takes the place of the state-of-the-art on the Kinetics
dataset, but real-world efficiency evaluations are often lacking. In this work,
we fill this gap and investigate the use of transformers for efficient action
recognition. We propose a novel, lightweight action recognition architecture,
VideoLightFormer. In a factorized fashion, we carefully extend the 2D
convolutional Temporal Segment Network with transformers, while maintaining
spatial and temporal video structure throughout the entire model. Existing
methods often resort to one of the two extremes, where they either apply huge
transformers to video features, or minimal transformers on highly pooled video
features. Our method differs from them by keeping the transformer models small,
but leveraging full spatiotemporal feature structure. We evaluate
VideoLightFormer in a high-efficiency setting on the temporally-demanding
EPIC-KITCHENS-100 and Something-Something-V2 (SSV2) datasets and find that it
achieves a better mix of efficiency and accuracy than existing state-of-the-art
models, apart from the Temporal Shift Module on SSV2.
- Abstract(参考訳): 効果的なビデオアクション認識は依然として難しい問題だ。
1つの大きなモデルは、Kineeticsデータセットの最先端技術に取って代わるが、現実の効率評価には欠けることが多い。
本研究では,このギャップを埋め,効率的な行動認識のための変圧器の利用について検討する。
本稿では,新しい軽量アクション認識アーキテクチャであるvideolightformerを提案する。
2次元畳み込み型テンポラリセグメントネットワークをトランスフォーマで慎重に拡張し,モデル全体にわたって時間的および時間的ビデオ構造を維持した。
既存の手法では、ビデオ機能に巨大なトランスフォーマーを適用するか、あるいは高度にプールされたビデオ機能に最小限のトランスフォーマーを適用する。
本手法はトランスフォーマーモデルを小さくしておくことで異なるが,時空間的特徴構造を活用できる。
我々は,EPIC-KITCHENS-100とSSV2データセットの高効率環境でビデオLightFormerを評価し,SSV2のTemporal Shift Moduleとは別に,既存の最先端モデルよりも高い効率と精度の混合を実現することを発見した。
関連論文リスト
- ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Two-Stream Transformer Architecture for Long Video Understanding [5.001789577362836]
本稿では,静的な画像特徴と時間的文脈的特徴の依存関係をモデル化するために,2ストリームトランスフォーマアーキテクチャを用いた効率的な時空間注意ネットワーク(STAN)を提案する。
提案手法は,1つのGPU上で最大2分間の動画の分類が可能であり,データ効率が良く,複数の長いビデオ理解タスクにおいてSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-08-02T21:03:48Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。