論文の概要: Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation
- arxiv url: http://arxiv.org/abs/2308.04549v1
- Date: Tue, 8 Aug 2023 19:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:12:07.149640
- Title: Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation
- Title(参考訳): 意味認識時間蓄積によるprune時空間トークン
- Authors: Shuangrui Ding, Peisen Zhao, Xiaopeng Zhang, Rui Qian, Hongkai Xiong,
Qi Tian
- Abstract要約: STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
- 参考スコア(独自算出の注目度): 89.88214896713846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the primary backbone of the computer vision
community due to their impressive performance. However, the unfriendly
computation cost impedes their potential in the video recognition domain. To
optimize the speed-accuracy trade-off, we propose Semantic-aware Temporal
Accumulation score (STA) to prune spatio-temporal tokens integrally. STA score
considers two critical factors: temporal redundancy and semantic importance.
The former depicts a specific region based on whether it is a new occurrence or
a seen entity by aggregating token-to-token similarity in consecutive frames
while the latter evaluates each token based on its contribution to the overall
prediction. As a result, tokens with higher scores of STA carry more temporal
redundancy as well as lower semantics thus being pruned. Based on the STA
score, we are able to progressively prune the tokens without introducing any
additional parameters or requiring further re-training. We directly apply the
STA module to off-the-shelf ViT and VideoSwin backbones, and the empirical
results on Kinetics-400 and Something-Something V2 achieve over 30% computation
reduction with a negligible ~0.2% accuracy drop. The code is released at
https://github.com/Mark12Ding/STA.
- Abstract(参考訳): トランスフォーマーは、その素晴らしい性能により、コンピュータビジョンコミュニティの主要なバックボーンとなっている。
しかし、不都合な計算コストは、ビデオ認識領域におけるその可能性を妨げる。
速度精度のトレードオフを最適化するために,時空間トークンを一体的にプルーピングするための意味認識時間蓄積スコア(sta)を提案する。
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮する。
前者は連続するフレームでトークンとtokenの類似性を集約し、後者は全体的な予測への貢献に基づいて各トークンを評価することにより、新しい事象か見掛けられた実体かに基づいて、特定の領域を描写する。
その結果、staの高いスコアを持つトークンは、より時間的冗長性を持ち、より低い意味論を持つため、刈り取られる。
STAスコアに基づいて、追加のパラメータを導入することなく、あるいはさらなる再トレーニングを必要とせずに、トークンを段階的にプルークすることができる。
市販のvitおよびvideoswinバックボーンにstaモジュールを直接適用し,kinetics-400 および something-something v2 を用いた実験結果では,約0.2%の精度低下で30%以上削減できた。
コードはhttps://github.com/Mark12Ding/STAで公開されている。
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。