論文の概要: HaltingVT: Adaptive Token Halting Transformer for Efficient Video
Recognition
- arxiv url: http://arxiv.org/abs/2401.04975v1
- Date: Wed, 10 Jan 2024 07:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:18:15.160161
- Title: HaltingVT: Adaptive Token Halting Transformer for Efficient Video
Recognition
- Title(参考訳): HaltingVT:効率的なビデオ認識のための適応型トークンHalting変換器
- Authors: Qian Wu, Ruoxuan Cui, Yuke Li, Haoqi Zhu
- Abstract要約: ビデオにおけるアクション認識は、高い計算コストのために課題となる。
本稿では、冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。
Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成しました。
- 参考スコア(独自算出の注目度): 11.362605513514943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition in videos poses a challenge due to its high computational
cost, especially for Joint Space-Time video transformers (Joint VT). Despite
their effectiveness, the excessive number of tokens in such architectures
significantly limits their efficiency. In this paper, we propose HaltingVT, an
efficient video transformer adaptively removing redundant video patch tokens,
which is primarily composed of a Joint VT and a Glimpser module. Specifically,
HaltingVT applies data-adaptive token reduction at each layer, resulting in a
significant reduction in the overall computational cost. Besides, the Glimpser
module quickly removes redundant tokens in shallow transformer layers, which
may even be misleading for video recognition tasks based on our observations.
To further encourage HaltingVT to focus on the key motion-related information
in videos, we design an effective Motion Loss during training. HaltingVT
acquires video analysis capabilities and token halting compression strategies
simultaneously in a unified training process, without requiring additional
training procedures or sub-networks. On the Mini-Kinetics dataset, we achieved
75.0% top-1 ACC with 24.2 GFLOPs, as well as 67.2% top-1 ACC with an extremely
low 9.9 GFLOPs. The code is available at
https://github.com/dun-research/HaltingVT.
- Abstract(参考訳): 特にジョイント時空ビデオトランスフォーマー(ジョイントvt)の計算コストが高いため、動画における動作認識は課題となっている。
その効果にもかかわらず、そのようなアーキテクチャにおける過剰な数のトークンは、その効率を著しく制限する。
本稿では,主にジョイントVTとGlimpserモジュールで構成される冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。
具体的には、HaltingVTは各層にデータ適応トークン還元を適用し、計算コストを大幅に削減する。
さらにspitchrモジュールは、浅いトランスフォーマー層の冗長なトークンを素早く削除します。
HaltingVTが動画のキーモーション関連情報に集中するように促すため、トレーニング中に効果的なモーションロスを設計する。
HaltingVTは、追加のトレーニング手順やサブネットワークを必要とせず、統合トレーニングプロセスで同時にビデオ解析機能とトークン停止圧縮戦略を取得する。
Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成した。
コードはhttps://github.com/dun-research/haltingvtで入手できる。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Motion Guided Token Compression for Efficient Masked Video Modeling [7.548789718676737]
本稿では,フレーム毎秒(FPS)レートのエスカレーションによって達成された性能について述べる。
我々はまた、より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するために、Transformerモデルに力を与える新しいアプローチ、Motion Guided Token Compression (MGTC)を提案する。
ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。
論文 参考訳(メタデータ) (2024-01-10T07:49:23Z) - Scattering Vision Transformer: Spectral Mixing Matters [3.0665715162712837]
本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークが組み込まれており、複雑な画像の詳細をキャプチャすることができる。
SVTはImageNetデータセットの最先端のパフォーマンスを達成し、多くのパラメータとFLOPSを大幅に削減した。
論文 参考訳(メタデータ) (2023-11-02T15:24:23Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:04:54Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。