論文の概要: Speed-up of Vision Transformer Models by Attention-aware Token Filtering
- arxiv url: http://arxiv.org/abs/2506.01519v1
- Date: Mon, 02 Jun 2025 10:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.192659
- Title: Speed-up of Vision Transformer Models by Attention-aware Token Filtering
- Title(参考訳): 注意型トークンフィルタリングによる視覚変換器モデルの高速化
- Authors: Takahiro Naruko, Hiroaki Akutsu,
- Abstract要約: 本稿では, 注意認識トークンフィルタリング(ATF)と呼ばれる, ViT モデルのための新しい高速化手法を提案する。
ATFは、新しいトークンフィルタリングモジュールとフィルタリング戦略の2つの主要なアイデアで構成されている。
ATFは、検索リコール率を維持しながら、ViTモデルであるSigLIPの2.8倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 6.061938153713551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) models have made breakthroughs in image embedding extraction, which provide state-of-the-art performance in tasks such as zero-shot image classification. However, the models suffer from a high computational burden. In this paper, we propose a novel speed-up method for ViT models called Attention-aware Token Filtering (ATF). ATF consists of two main ideas: a novel token filtering module and a filtering strategy. The token filtering module is introduced between a tokenizer and a transformer encoder of the ViT model, without modifying or fine-tuning of the transformer encoder. The module filters out tokens inputted to the encoder so that it keeps tokens in regions of specific object types dynamically and keeps tokens in regions that statically receive high attention in the transformer encoder. This filtering strategy maintains task accuracy while filtering out tokens inputted to the transformer encoder. Evaluation results on retrieval tasks show that ATF provides $2.8\times$ speed-up to a ViT model, SigLIP, while maintaining the retrieval recall rate.
- Abstract(参考訳): Vision Transformer (ViT) モデルは、ゼロショット画像分類のようなタスクにおける最先端のパフォーマンスを提供する画像埋め込み抽出において画期的な進歩を遂げた。
しかし、モデルは高い計算負担に悩まされる。
本稿では,注意型トークンフィルタリング (ATF) と呼ばれる新しいViTモデルの高速化手法を提案する。
ATFは、新しいトークンフィルタリングモジュールとフィルタリング戦略の2つの主要なアイデアで構成されている。
トークンフィルタリングモジュールは、トークンライザとViTモデルのトランスフォーマーエンコーダの間に導入され、トランスフォーマーエンコーダの変更や微調整は行わない。
モジュールは、エンコーダに入力されたトークンをフィルタリングし、特定のオブジェクトタイプの領域にトークンを動的に保持し、トランスフォーマーエンコーダで静的に注目を集める領域にトークンを保持する。
このフィルタリング戦略は、トランスバータエンコーダに入力されたトークンをフィルタリングしながらタスクの精度を維持する。
検索タスクの評価結果は、ATFが検索リコール率を維持しながら、ViTモデルであるSigLIPに2.8\times$スピードアップを提供することを示している。
関連論文リスト
- IoT Botnet Detection: Application of Vision Transformer to Classification of Network Flow Traffic [0.0]
本研究では、ネットワークフローパケットを用いたIoTボットネット攻撃検出において、トランスフォーマーモデル、特にビジョントランスフォーマー(ViT)を適応するための新しい前処理手法を導入する。
このアプローチでは、.pcapファイルから特徴抽出を行い、各インスタンスを1チャンネルの2D画像に変換することで、ViTベースの分類を可能にする。
論文 参考訳(メタデータ) (2025-04-26T03:19:19Z) - A temporal scale transformer framework for precise remaining useful life prediction in fuel cells [10.899223392837936]
TS Transformer (Temporal Scale Transformer) は、逆変換器(i Transformer)の拡張版である。
各タイムステップを入力トークンとして扱う従来のトランスフォーマーとは異なり、TSTransformerは異なる長さのシーケンスを異なる段階のトークンにマッピングし、シーケンス間モデリングを行う。
局所的な特徴抽出を改善し、時間スケールの特徴を捉え、トークン数と計算コストを削減する。
論文 参考訳(メタデータ) (2025-04-08T23:42:54Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - ATS: Adaptive Token Sampling For Efficient Vision Transformers [33.297806854292155]
本稿では,パラメータフリーな適応トークンサンプリング(ATS)モジュールを導入し,既存の視覚トランスフォーマアーキテクチャにプラグインすることができる。
ATSは、重要なトークンをスコアリングし、適応的にサンプリングすることで、視覚変換器の強化を行う。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOPs)を37%削減し,最先端技術の向上を図っている。
論文 参考訳(メタデータ) (2021-11-30T18:56:57Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Do We Really Need Explicit Position Encodings for Vision Transformers? [29.7662570764424]
入力トークンの局所近傍に条件付き位置符号化方式を提案する。
PEGを用いた新しいモデルは、Visual Transformer (CPVT) と呼ばれ、任意の長さの入力シーケンスを自然に処理できる。
我々は, cpvt が視覚的に類似したアテンションマップとなり, 予め定義された位置符号化よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-02-22T10:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。