論文の概要: DCT-Based Decorrelated Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2405.13901v2
- Date: Tue, 28 May 2024 17:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:28:48.659860
- Title: DCT-Based Decorrelated Attention for Vision Transformers
- Title(参考訳): DCTによる視覚変換器の劣化注意
- Authors: Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Koushik Biswas, Ahmet Enis Cetin, Ulas Bagci,
- Abstract要約: 視覚変換器の注目機能に対する新しいDCTベースの圧縮手法を提案する。
我々のDCTベースの圧縮は、クエリ、キー、値の重み行列のサイズを減らします。
- 参考スコア(独自算出の注目度): 5.4152982416469415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Central to the Transformer architectures' effectiveness is the self-attention mechanism, a function that maps queries, keys, and values into a high-dimensional vector space. However, training the attention weights of queries, keys, and values is non-trivial from a state of random initialization. In this paper, we propose two methods. (i) We first address the initialization problem of Vision Transformers by introducing a simple, yet highly innovative, initialization approach utilizing Discrete Cosine Transform (DCT) coefficients. Our proposed DCT-based attention initialization marks a significant gain compared to traditional initialization strategies; offering a robust foundation for the attention mechanism. Our experiments reveal that the DCT-based initialization enhances the accuracy of Vision Transformers in classification tasks. (ii) We also recognize that since DCT effectively decorrelates image information in the frequency domain, this decorrelation is useful for compression because it allows the quantization step to discard many of the higher-frequency components. Based on this observation, we propose a novel DCT-based compression technique for the attention function of Vision Transformers. Since high-frequency DCT coefficients usually correspond to noise, we truncate the high-frequency DCT components of the input patches. Our DCT-based compression reduces the size of weight matrices for queries, keys, and values. While maintaining the same level of accuracy, our DCT compressed Swin Transformers obtain a considerable decrease in the computational overhead.
- Abstract(参考訳): Transformerアーキテクチャの有効性の中心は、クエリ、キー、値を高次元ベクトル空間にマッピングするセルフアテンションメカニズムである。
しかし、ランダム初期化の状態からクエリ、キー、値の注意重みをトレーニングするのは簡単ではない。
本稿では,2つの手法を提案する。
(i)まず,離散コサイン変換(DCT)係数を用いたシンプルで革新的な初期化手法を導入することにより,視覚変換器の初期化問題に対処する。
提案したDCTに基づく注意初期化は,従来の初期化戦略に比べて顕著に向上し,注意機構の堅牢な基盤を提供する。
実験の結果,DCTに基づく初期化により,分類作業における視覚変換器の精度が向上することが判明した。
(II) DCTは周波数領域における画像情報を効果的にデコレーションするので、このデコレーションが圧縮に有用であることは、量子化ステップが高周波数成分の多くを破棄できるようにするためである。
そこで本研究では,視覚変換器の注目機能のための新しいDCT圧縮手法を提案する。
高周波DCT係数は通常ノイズに対応するため、入力パッチの高周波DCT成分を切断する。
我々のDCTベースの圧縮は、クエリ、キー、値の重み行列のサイズを減らします。
同じレベルの精度を維持しながら、DCT圧縮スウィン変換器は計算オーバーヘッドを大幅に低減する。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文 参考訳(メタデータ) (2023-10-03T13:34:21Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints [44.90917854990362]
変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。
我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。
CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-03-06T04:32:34Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - CTformer: Convolution-free Token2Token Dilated Vision Transformer for
Low-dose CT Denoising [11.67382017798666]
低線量CT(LDCT)はCT研究において重要な問題である。
視覚変換器は畳み込みニューラルネットワーク(CNN)よりも優れた特徴表現能力を示している
低用量CT用コンボリューションフリーToken2Token Dilated Vision Transformerを提案する。
論文 参考訳(メタデータ) (2022-02-28T02:58:16Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。