論文の概要: FilterViT and DropoutViT
- arxiv url: http://arxiv.org/abs/2410.22709v3
- Date: Sun, 10 Nov 2024 11:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:20.140725
- Title: FilterViT and DropoutViT
- Title(参考訳): FilterViT と DropoutViT
- Authors: Bohang Sun,
- Abstract要約: 我々は、ダウンサンプリングの初期段階で注意に基づくQKV操作を行うViTの強化版を紹介した。
本稿では,フィルタブロックを用いて注目画素を選択するための有能マスクを作成するフィルタアテンション機構を提案する。
このアプローチは、注意に関わるトークンの数を効果的に減らし、計算複雑性を減らし、処理速度を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this study, we introduce an enhanced version of ViT that conducts attention-based QKV operations during the initial stages of downsampling. Performing attention directly on high-resolution feature maps is computationally demanding due to the large size and numerous tokens. To mitigate this, we propose a filter attention mechanism that uses a Filter Block to create a salient mask (Filter Mask) for selecting the most informative pixels for attention. The Filter Block scores the pixels of the feature map, and we sort these scores to retain only the top K pixels (with K varying across layers). This approach effectively decreases the number of tokens involved in the attention computation, reducing computational complexity and boosting processing speed. Furthermore, the salient mask provides interpretability, as the model focuses on regions of the image most critical to the outcome. Our experimental results show that this model improves parameter efficiency and computational speed while enhancing accuracy. Compared to existing models, our approach significantly reduces resource consumption while maintaining high performance.
- Abstract(参考訳): 本研究では,ダウンサンプリングの初期段階で注意に基づくQKV操作を行うViTの強化版を紹介する。
高解像度特徴写像に直接注意を払うことは、大きなサイズと多数のトークンのために計算的に要求される。
そこで本研究では,フィルタブロックを用いて,最も情報性の高い画素を選択するためのサージェントマスク (Filter Mask) を作成するフィルタアテンション機構を提案する。
Filter Blockは特徴マップのピクセルをスコアし、これらのスコアを上位Kピクセルのみを保持するようにソートします。
このアプローチは、注意計算に関わるトークンの数を効果的に減らし、計算複雑性を減らし、処理速度を向上する。
さらに、サルエントマスクは、結果に最も重要な画像の領域に焦点を当てるため、解釈可能性を提供する。
実験結果から,このモデルではパラメータ効率と計算速度が向上し,精度が向上することが示された。
既存のモデルと比較して,高い性能を維持しながら資源消費を大幅に削減する。
関連論文リスト
- AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs [7.373360108988774]
本稿では,特徴抽出のためのFourierと画像領域フィルタリングを交互に行う手法を提案する。
軽量モデル間の性能はImageNet-1K分類の最先端レベルに達する。
我々のアプローチは、視覚変換器(ViT)を圧縮するための新しいツールとしても機能する。
論文 参考訳(メタデータ) (2024-07-16T23:53:11Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Efficient Image Super-Resolution using Vast-Receptive-Field Attention [49.87316814164699]
注意機構は、高度な超解像(SR)ネットワークの設計において重要な役割を果たす。
本研究では,アテンション機構の改善により,効率的なSRネットワークを設計する。
VAst-receptive-field Pixel attention networkであるVapSRを提案する。
論文 参考訳(メタデータ) (2022-10-12T07:01:00Z) - ASSET: Autoregressive Semantic Scene Editing with Transformers at High
Resolutions [28.956280590967808]
私たちのアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいています。
我々のキーとなる考え方は、高解像度の画像解像度で抽出された濃密な注意によって導かれる、トランスフォーマーの注意行列を高解像度でスパース化することである。
本手法の有効性を示した質的,定量的な結果とユーザスタディについて述べる。
論文 参考訳(メタデータ) (2022-05-24T17:39:53Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Attention-based Image Upsampling [14.676228848773157]
我々は、注意メカニズムを使用して別の正統的な操作を置き換える方法を示しています。
注意に基づくアップサンプリングが従来のアップサンプリング手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T19:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。