論文の概要: DCT-Former: Efficient Self-Attention with Discrete Cosine Transform
- arxiv url: http://arxiv.org/abs/2203.01178v2
- Date: Thu, 3 Mar 2022 09:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 12:51:54.875349
- Title: DCT-Former: Efficient Self-Attention with Discrete Cosine Transform
- Title(参考訳): DCT-Former:離散コサイン変換による効率的な自己認識
- Authors: Carmelo Scribano, Giorgia Franchini, Marco Prato and Marko Bertogna
- Abstract要約: トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 4.622165486890318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since their introduction the Trasformer architectures emerged as the
dominating architectures for both natural language processing and, more
recently, computer vision applications. An intrinsic limitation of this family
of "fully-attentive" architectures arises from the computation of the
dot-product attention, which grows both in memory consumption and number of
operations as $O(n^2)$ where $n$ stands for the input sequence length, thus
limiting the applications that require modeling very long sequences. Several
approaches have been proposed so far in the literature to mitigate this issue,
with varying degrees of success. Our idea takes inspiration from the world of
lossy data compression (such as the JPEG algorithm) to derive an approximation
of the attention module by leveraging the properties of the Discrete Cosine
Transform. An extensive section of experiments shows that our method takes up
less memory for the same performance, while also drastically reducing inference
time. This makes it particularly suitable in real-time contexts on embedded
platforms. Moreover, we assume that the results of our research might serve as
a starting point for a broader family of deep neural models with reduced memory
footprint. The implementation will be made publicly available at
https://github.com/cscribano/DCT-Former-Public
- Abstract(参考訳): トラスフォーマーアーキテクチャの導入以来、自然言語処理とコンピュータビジョンアプリケーションの両方において支配的なアーキテクチャとして登場した。
これは、メモリ消費と演算数の両方が増加し、$O(n^2)$、$n$は入力シーケンスの長さを表すので、非常に長いシーケンスのモデリングを必要とするアプリケーションを制限する。
この問題を緩和するための文献では、いくつかのアプローチが提案されているが、成功度は様々である。
我々のアイデアは、離散コサイン変換の特性を活用してアテンションモジュールの近似を導出するために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,本手法が同一性能のメモリを消費しにくくし,推論時間を大幅に短縮することを示した。
これにより、特に組込みプラットフォーム上のリアルタイムコンテキストに適している。
さらに、我々の研究結果は、メモリフットプリントを削減したより広範なディープニューラルネットワークモデルの出発点となるかもしれないと仮定する。
実装はhttps://github.com/cscribano/DCT-Former-Publicで公開される。
関連論文リスト
- Reinforcement Learning as a Parsimonious Alternative to Prediction
Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。
ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。
コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文 参考訳(メタデータ) (2024-02-19T01:17:52Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [78.85438991894253]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文 参考訳(メタデータ) (2022-12-22T18:55:45Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。