論文の概要: SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit
- arxiv url: http://arxiv.org/abs/2503.00060v1
- Date: Thu, 27 Feb 2025 02:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:26.149271
- Title: SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit
- Title(参考訳): SAC-ViT:Semantic-Aware Clustering Vision Transformer with Early Exit
- Authors: Youbing Hu, Yun Cheng, Anqi Lu, Dawei Wei, Zhijun Li,
- Abstract要約: Vision Transformer (ViT)はグローバルなモデリングに優れていますが、リソース制約のあるデバイスへのデプロイメントの課題に直面しています。
本稿では,セマンティック・アウェア・クラスタリング・ビジョン・トランス (SAC-ViT) を提案する。
- 参考スコア(独自算出の注目度): 6.87425726793675
- License:
- Abstract: The Vision Transformer (ViT) excels in global modeling but faces deployment challenges on resource-constrained devices due to the quadratic computational complexity of its attention mechanism. To address this, we propose the Semantic-Aware Clustering Vision Transformer (SAC-ViT), a non-iterative approach to enhance ViT's computational efficiency. SAC-ViT operates in two stages: Early Exit (EE) and Semantic-Aware Clustering (SAC). In the EE stage, downsampled input images are processed to extract global semantic information and generate initial inference results. If these results do not meet the EE termination criteria, the information is clustered into target and non-target tokens. In the SAC stage, target tokens are mapped back to the original image, cropped, and embedded. These target tokens are then combined with reused non-target tokens from the EE stage, and the attention mechanism is applied within each cluster. This two-stage design, with end-to-end optimization, reduces spatial redundancy and enhances computational efficiency, significantly boosting overall ViT performance. Extensive experiments demonstrate the efficacy of SAC-ViT, reducing 62% of the FLOPs of DeiT and achieving 1.98 times throughput without compromising performance.
- Abstract(参考訳): Vision Transformer (ViT)は、グローバルモデリングに優れるが、その注意機構の2次計算複雑性のため、リソース制約されたデバイスへのデプロイメントの課題に直面している。
そこで本研究では,セマンティック・アウェア・クラスタリング・ビジョン・トランスフォーマ (SAC-ViT) を提案する。
SAC-ViTはEarly Exit(EE)とSemantic-Aware Clustering(SAC)の2つのステージで動作する。
EE段階では、ダウンサンプリングされた入力画像が処理され、グローバルな意味情報を抽出し、初期推論結果を生成する。
これらの結果がEE終了基準を満たしていない場合、情報はターゲットトークンと非ターゲットトークンにクラスタ化されます。
SACの段階では、ターゲットトークンは元のイメージにマッピングされ、トリミングされ、埋め込みされる。
これらのターゲットトークンは、EEステージから再利用された非ターゲットトークンと結合され、各クラスタ内でアテンションメカニズムが適用される。
この2段階の設計は、エンドツーエンドの最適化により空間冗長性を低減し、計算効率を向上し、全体のViT性能を大幅に向上させる。
SAC-ViTの有効性を示し、DeiTのFLOPの62%を削減し、性能を損なうことなく1.98倍のスループットを達成した。
関連論文リスト
- Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient
Image Recognition [9.727093171296678]
Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上する。
これは空間冗長性の著しい課題に直面し、計算とメモリの要求が増大する。
LF-ViT(Localization and Focus Vision Transformer)について述べる。
計算要求を戦略的に削減し、性能を損なうことなく運用する。
論文 参考訳(メタデータ) (2024-01-08T01:32:49Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。