論文の概要: Optimizing ViViT Training: Time and Memory Reduction for Action
Recognition
- arxiv url: http://arxiv.org/abs/2306.04822v1
- Date: Wed, 7 Jun 2023 23:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:12:50.050007
- Title: Optimizing ViViT Training: Time and Memory Reduction for Action
Recognition
- Title(参考訳): ViViTトレーニングの最適化:行動認識のための時間とメモリ削減
- Authors: Shreyank N Gowda, Anurag Arnab, Jonathan Huang
- Abstract要約: ビデオトランスによるトレーニング時間とメモリ消費がもたらす課題に対処する。
本手法は,この障壁を低くするように設計されており,トレーニング中に空間変圧器を凍結するという考え方に基づいている。
- 参考スコア(独自算出の注目度): 30.431334125903145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenges posed by the substantial training
time and memory consumption associated with video transformers, focusing on the
ViViT (Video Vision Transformer) model, in particular the Factorised Encoder
version, as our baseline for action recognition tasks. The factorised encoder
variant follows the late-fusion approach that is adopted by many state of the
art approaches. Despite standing out for its favorable speed/accuracy tradeoffs
among the different variants of ViViT, its considerable training time and
memory requirements still pose a significant barrier to entry. Our method is
designed to lower this barrier and is based on the idea of freezing the spatial
transformer during training. This leads to a low accuracy model if naively
done. But we show that by (1) appropriately initializing the temporal
transformer (a module responsible for processing temporal information) (2)
introducing a compact adapter model connecting frozen spatial representations
((a module that selectively focuses on regions of the input image) to the
temporal transformer, we can enjoy the benefits of freezing the spatial
transformer without sacrificing accuracy. Through extensive experimentation
over 6 benchmarks, we demonstrate that our proposed training strategy
significantly reduces training costs (by $\sim 50\%$) and memory consumption
while maintaining or slightly improving performance by up to 1.79\% compared to
the baseline model. Our approach additionally unlocks the capability to utilize
larger image transformer models as our spatial transformer and access more
frames with the same memory consumption.
- Abstract(参考訳): 本稿では,ビデオトランスのトレーニング時間とメモリ消費がもたらす課題について,ViViT(Video Vision Transformer)モデル,特にFactized Encoderバージョンに着目し,アクション認識タスクのベースラインとして取り上げる。
因子化エンコーダの変種は、多くの最先端のアプローチで採用されている後期融合アプローチに従っている。
ViViTの様々な変種の間で、良好な速度/精度のトレードオフを目論んでいるにもかかわらず、その相当なトレーニング時間とメモリ要件は、依然として導入に重大な障壁となっている。
本手法は, このバリアを低減し, トレーニング中に空間変圧器を凍結するという考え方に基づいている。
これは、素直に行えば、精度の低いモデルにつながる。
しかし,(1)時間変換器(時間情報処理を担当するモジュール)を適切に初期化することにより,(2)凍結した空間表現(入力画像の領域に選択的にフォーカスするモジュール)を時間変換器に接続するコンパクトなアダプタモデルを導入することにより,空間変換器の凍結の利点を,精度を損なうことなく享受できることを示す。
提案したトレーニング戦略は,6ベンチマーク以上の広範な実験を通じて,トレーニングコスト($\sim 50\%$)とメモリ使用量を大幅に削減すると同時に,ベースラインモデルと比較して最大1.79\%の性能向上を図っている。
さらに,空間トランスフォーマーとしてより大きな画像トランスフォーマーモデルを活用する機能や,同じメモリ消費でより多くのフレームにアクセスする機能も備えている。
関連論文リスト
- ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars
for Write Noise Mitigation [6.853523674099236]
非揮発性メモリ(NVM)に基づくインメモリコンピューティング(IMC)クロスバーは、トランスフォーマーを高速化するための有望なソリューションとして登場した。
書込みノイズを動的に発生させることにより、事前訓練された視覚変換器(ViT)がクロスバーに対して脆弱であることがわかった。
本稿では,事前学習したViTモデルの非理想的精度を高めるために,新しい旋律的クロスバープラットフォームを提案する。
論文 参考訳(メタデータ) (2024-02-04T19:04:37Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Eventful Transformers: Leveraging Temporal Redundancy in Vision
Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。
ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文 参考訳(メタデータ) (2023-08-25T17:10:12Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。