論文の概要: Token Compression Meets Compact Vision Transformers: A Survey and Comparative Evaluation for Edge AI
- arxiv url: http://arxiv.org/abs/2507.09702v1
- Date: Sun, 13 Jul 2025 16:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.851999
- Title: Token Compression Meets Compact Vision Transformers: A Survey and Comparative Evaluation for Edge AI
- Title(参考訳): Token Compressionがコンパクトなビジョントランスフォーマーを発表:エッジAIに関する調査と比較評価
- Authors: Phat Nguyen, Ngai-Man Cheung,
- Abstract要約: コンピュータビジョンにおける視覚変換器(ViT)推論のための強力なツールとして、トークン圧縮技術が登場した。
本稿では,最初の系統分類法とトークン圧縮法の比較研究について述べる。
提案実験により, トークン圧縮法は汎用 ViT に対して有効であるが, コンパクトな設計に直接適用した場合は, 性能が低下することが多いことがわかった。
- 参考スコア(独自算出の注目度): 26.45869748408205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token compression techniques have recently emerged as powerful tools for accelerating Vision Transformer (ViT) inference in computer vision. Due to the quadratic computational complexity with respect to the token sequence length, these methods aim to remove less informative tokens before the attention layers to improve inference throughput. While numerous studies have explored various accuracy-efficiency trade-offs on large-scale ViTs, two critical gaps remain. First, there is a lack of unified survey that systematically categorizes and compares token compression approaches based on their core strategies (e.g., pruning, merging, or hybrid) and deployment settings (e.g., fine-tuning vs. plug-in). Second, most benchmarks are limited to standard ViT models (e.g., ViT-B, ViT-L), leaving open the question of whether such methods remain effective when applied to structurally compressed transformers, which are increasingly deployed on resource-constrained edge devices. To address these gaps, we present the first systematic taxonomy and comparative study of token compression methods, and we evaluate representative techniques on both standard and compact ViT architectures. Our experiments reveal that while token compression methods are effective for general-purpose ViTs, they often underperform when directly applied to compact designs. These findings not only provide practical insights but also pave the way for future research on adapting token optimization techniques to compact transformer-based networks for edge AI and AI agent applications.
- Abstract(参考訳): 近年,コンピュータビジョンにおける視覚変換器(ViT)推論を高速化するための強力なツールとして,トークン圧縮技術が登場している。
トークン列長に関する2次計算の複雑さのため、これらの手法は、注目層の前に少ない情報的トークンを除去し、推論スループットを向上させることを目的としている。
多くの研究が大規模なViT上での様々な精度と効率のトレードオフを調査してきたが、2つの重要なギャップが残っている。
まず、コア戦略(例えば、プルーニング、マージ、ハイブリッド)とデプロイメント設定(例えば、微調整とプラグイン)に基づいて、トークン圧縮アプローチを体系的に分類し比較する統一的な調査が欠如しています。
第二に、ほとんどのベンチマークは標準のViTモデル(例えば、ViT-B、ViT-L)に限定されており、リソース制約のあるエッジデバイスにますますデプロイされる構造的に圧縮されたトランスフォーマーに適用した場合、そのような手法が有効かどうかという疑問が残る。
これらのギャップに対処するため,トークン圧縮法に関する最初の系統分類と比較研究を行い,標準およびコンパクトなViTアーキテクチャにおける代表的手法の評価を行った。
提案実験により, トークン圧縮法は汎用 ViT に対して有効であるが, コンパクトな設計に直接適用した場合は, 性能が低下することが多いことがわかった。
これらの発見は、実用的な洞察を提供するだけでなく、エッジAIおよびAIエージェントアプリケーションのためのコンパクトトランスフォーマーベースのネットワークにトークン最適化技術を適用するための将来の研究の道を開く。
関連論文リスト
- Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1067331268383]
TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文 参考訳(メタデータ) (2025-08-05T12:40:55Z) - MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions [1.0411839100853515]
MoR-ViTはトークンレベルの動的再帰機構を組み込んだ新しいビジョントランスフォーマーフレームワークである。
ImageNet-1Kと転送ベンチマークの実験は、MoR-ViTが最大70%のパラメータ還元と2.5倍の推論加速で最先端の精度を達成することを示した。
論文 参考訳(メタデータ) (2025-07-29T12:46:36Z) - Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies [0.0]
ビジョントランス (ViT) はコンピュータビジョンタスクのための強力で有望な技術として登場した。
高い計算複雑性とメモリ要求は、リソース制約のあるエッジデバイスへのデプロイに困難をもたらす。
論文 参考訳(メタデータ) (2025-02-26T22:34:44Z) - MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity [32.532780329341186]
データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。
視覚変換器(ViT)アーキテクチャにはいくつかのDFQ法が提案されているが、低ビット設定では有効性は得られていない。
そこで我々は,視覚障害者のための新しいDFQ手法であるMimiQを考案した。
論文 参考訳(メタデータ) (2024-07-29T13:57:40Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。