論文の概要: SVT: Supertoken Video Transformer for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2304.00325v2
- Date: Sun, 23 Apr 2023 21:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 20:31:12.050954
- Title: SVT: Supertoken Video Transformer for Efficient Video Understanding
- Title(参考訳): SVT:効率的なビデオ理解のための超音速ビデオトランス
- Authors: Chenbin Pan, Rui Hou, Hanchao Yu, Qifan Wang, Senem Velipasalar, and
Madian Khabsa
- Abstract要約: 本稿では,SPM(Semantic Pooling Module)を組み込んだSVT(Supertoken Video Transformer)を提案する。
提案手法は,類似のセマンティクスで潜在表現をマージすることで冗長性を効果的に低減し,下流タスクに対する有能な情報の割合を増大させることができる。
- 参考スコア(独自算出の注目度): 22.357170476500944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether by processing videos with fixed resolution from start to end or
incorporating pooling and down-scaling strategies, existing video transformers
process the whole video content throughout the network without specially
handling the large portions of redundant information. In this paper, we present
a Supertoken Video Transformer (SVT) that incorporates a Semantic Pooling
Module (SPM) to aggregate latent representations along the depth of visual
transformer based on their semantics, and thus, reduces redundancy inherent in
video inputs.~Qualitative results show that our method can effectively reduce
redundancy by merging latent representations with similar semantics and thus
increase the proportion of salient information for downstream
tasks.~Quantitatively, our method improves the performance of both ViT and MViT
while requiring significantly less computations on the Kinectics and
Something-Something-V2 benchmarks.~More specifically, with our SPM, we improve
the accuracy of MAE-pretrained ViT-B and ViT-L by 1.5% with 33% less GFLOPs and
by 0.2% with 55% less FLOPs, respectively, on the Kinectics-400 benchmark, and
improve the accuracy of MViTv2-B by 0.2% and 0.3% with 22% less GFLOPs on
Kinectics-400 and Something-Something-V2, respectively.
- Abstract(参考訳): 既存のビデオトランスフォーマーは、開始から終了までの一定の解像度でビデオを処理するか、あるいはプールとダウンスケーリングの戦略を取り入れることで、冗長な情報の大部分を特別に処理することなく、全ビデオコンテンツをネットワーク全体で処理する。
本稿では,視覚トランスフォーマの奥行きに沿って潜在表現を集約するセマンティック・プーリング・モジュール(spm)を組み込んだsupertoken video transformer(svt)を提案する。
その結果,提案手法は,潜在表現と類似のセマンティクスを融合することで冗長性を効果的に低減でき,従って下流タスクの高度情報の割合を増加できることがわかった。
この手法は,Kinectics と something-Something-V2 ベンチマークの計算処理を著しく削減しつつ,ViT と MViT の両方の性能を向上させる。
具体的には、Kinectics-400ベンチマークでは、MAE-pretrained ViT-BとViT-Lを1.5%、GFLOPを33%、FLOPを0.2%、FLOPを55%削減し、Kinectics-400ではMViTv2-Bを0.2%、Something-V2では22%の精度でMViTv2-Bを0.3%改善しています。
関連論文リスト
- MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Sim-T: Simplify the Transformer Network by Multiplexing Technique for
Speech Recognition [2.4956060473718407]
トランスフォーマーモデルの汎用性を高めるために,Sim-Tと呼ばれる新しい軽量モデルが提案されている。
新たに開発された多重化技術の助けを借りて、Sim-Tはその性能に対して無視できない犠牲でモデルを効率的に圧縮することができる。
論文 参考訳(メタデータ) (2023-04-11T05:25:00Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。