論文の概要: LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient
Image Recognition
- arxiv url: http://arxiv.org/abs/2402.00033v1
- Date: Mon, 8 Jan 2024 01:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-04 05:24:28.703688
- Title: LF-ViT: Reducing Spatial Redundancy in Vision Transformer for Efficient
Image Recognition
- Title(参考訳): LF-ViT:効率的な画像認識のための視覚変換器における空間冗長性低減
- Authors: Youbing Hu, Yun Cheng, Anqi Lu, Zhiqiang Cao, Dawei Wei, Jie Liu,
Zhijun Li
- Abstract要約: Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上する。
これは空間冗長性の著しい課題に直面し、計算とメモリの要求が増大する。
LF-ViT(Localization and Focus Vision Transformer)について述べる。
計算要求を戦略的に削減し、性能を損なうことなく運用する。
- 参考スコア(独自算出の注目度): 9.727093171296678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) excels in accuracy when handling high-resolution
images, yet it confronts the challenge of significant spatial redundancy,
leading to increased computational and memory requirements. To address this, we
present the Localization and Focus Vision Transformer (LF-ViT). This model
operates by strategically curtailing computational demands without impinging on
performance. In the Localization phase, a reduced-resolution image is
processed; if a definitive prediction remains elusive, our pioneering
Neighborhood Global Class Attention (NGCA) mechanism is triggered, effectively
identifying and spotlighting class-discriminative regions based on initial
findings. Subsequently, in the Focus phase, this designated region is used from
the original image to enhance recognition. Uniquely, LF-ViT employs consistent
parameters across both phases, ensuring seamless end-to-end optimization. Our
empirical tests affirm LF-ViT's prowess: it remarkably decreases Deit-S's FLOPs
by 63\% and concurrently amplifies throughput twofold. Code of this project is
at https://github.com/edgeai1/LF-ViT.git.
- Abstract(参考訳): Vision Transformer (ViT) は高解像度画像を扱う際の精度を向上するが、空間冗長性の著しい問題に直面し、計算とメモリの要求が増大する。
これを解決するために、我々はLocalization and Focus Vision Transformer (LF-ViT)を提案する。
このモデルは、パフォーマンスを損なうことなく、計算要求を戦略的に削減することで動作します。
ローカライズ段階では、解像度の低い画像が処理され、決定的な予測が不明な場合には、先駆的な近隣のグローバルクラスアテンション(ngca)機構が起動され、初期所見に基づいてクラス識別領域を効果的に識別しスポットライトを当てる。
その後、フォーカスフェーズでは、元の画像からこの指定領域を使用して認識を強化する。
LF-ViTは両フェーズで一貫したパラメータを使用し、シームレスなエンドツーエンドの最適化を保証する。
実験では,LF-ViTの効率を実証し,Dit-SのFLOPを63%削減し,スループットを2倍に増幅した。
このプロジェクトのコードはhttps://github.com/edgeai1/LF-ViT.gitにある。
関連論文リスト
- LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth
Limited Optical Signal Acquisition [14.773452863027037]
本稿では, 取得量を削減するために, 事前取得変調を利用した新しいアプローチを提案する。
同様に、LUM-ViTは、事前取得の調整に適した学習可能なアンダーサンプリングマスクを組み込んでいる。
評価の結果,LUM-ViTは画像画像の10%をサンプリングすることで,画像ネット分類タスクにおいて1.8%以内の精度低下を維持できることがわかった。
論文 参考訳(メタデータ) (2024-03-03T06:49:01Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。