論文の概要: ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT
- arxiv url: http://arxiv.org/abs/2602.15720v1
- Date: Tue, 17 Feb 2026 16:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.130442
- Title: ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT
- Title(参考訳): ToaSt: 効率的なViTのためのTokenチャネル選択と構造化プルーニング
- Authors: Hyunchan Moon, Cheonjun Park, Steven L. Waslander,
- Abstract要約: ビジョントランスフォーマー(ViT)は様々なビジョンタスクで顕著な成功を収めているが、その展開は計算コストの制限によって妨げられていることが多い。
異なるViTコンポーネントに特別な戦略を適用する分離されたフレームワークであるToaStを提案する。
- 参考スコア(独自算出の注目度): 14.21482208417138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable success across various vision tasks, yet their deployment is often hindered by prohibitive computational costs. While structured weight pruning and token compression have emerged as promising solutions, they suffer from prolonged retraining times and global propagation that creates optimization challenges, respectively. We propose ToaSt, a decoupled framework applying specialized strategies to distinct ViT components. We apply coupled head-wise structured pruning to Multi-Head Self-Attention modules, leveraging attention operation characteristics to enhance robustness. For Feed-Forward Networks (over 60\% of FLOPs), we introduce Token Channel Selection (TCS) that enhances compression ratios while avoiding global propagation issues. Our analysis reveals TCS effectively filters redundant noise during selection. Extensive evaluations across nine diverse models, including DeiT, ViT-MAE, and Swin Transformer, demonstrate that ToaSt achieves superior trade-offs between accuracy and efficiency, consistently outperforming existing baselines. On ViT-MAE-Huge, ToaSt achieves 88.52\% accuracy (+1.64 \%) with 39.4\% FLOPs reduction. ToaSt transfers effectively to downstream tasks, cccccachieving 52.2 versus 51.9 mAP on COCO object detection. Code and models will be released upon acceptance.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は様々なビジョンタスクで顕著な成功を収めているが、その展開は計算コストの制限によって妨げられていることが多い。
構造化された重み付きプルーニングとトークン圧縮は有望な解として現れてきたが、それらはそれぞれ、最適化の課題を生み出す、長期の再訓練時間とグローバルな伝播に悩まされている。
異なるViTコンポーネントに特別な戦略を適用する分離されたフレームワークであるToaStを提案する。
複数頭部自己注意モジュールに結合型頭部構造化プルーニングを適用し, 注意操作特性を活用し, 頑健性を高める。
フィードフォワードネットワーク(FLOPの60%以上)では,グローバルな伝搬問題を回避しつつ圧縮率を向上するToken Channel Selection(TCS)を導入する。
分析の結果,TCSは選択中の冗長ノイズを効果的にフィルタすることがわかった。
DeiT、ViT-MAE、Swin Transformerを含む9つのモデルにわたる広範囲な評価は、ToaStが精度と効率の優れたトレードオフを達成し、既存のベースラインを一貫して上回ることを示した。
ViT-MAE-Hugeでは、ToaSt は 88.52\% の精度 (+1.64 \%) と 39.4\% のFLOPs を削減した。
ToaStは、COCOオブジェクト検出において52.2対51.9mAPというダウンストリームタスクに効果的に転送する。
コードとモデルは受け入れ次第リリースされる。
関連論文リスト
- EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - HEViTPose: High-Efficiency Vision Transformer for Human Pose Estimation [3.1690891866882236]
本稿では,Human Pose Estimation (HEViTPose)のための高効率視覚変換器を提案する。
HEViTPoseでは,CGSR-MHA (Cascaded Group Spatial Reduction Multi-Head Attention Module) が提案され,計算コストが削減された。
2つのベンチマークデータセット(MPIIとCOCO)の総合的な実験は、HEViTPoseモデルが最先端モデルと同等であることを示している。
論文 参考訳(メタデータ) (2023-11-22T06:45:16Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。