論文の概要: DCT-Former: Efficient Self-Attention withDiscrete Cosine Transform
- arxiv url: http://arxiv.org/abs/2203.01178v1
- Date: Wed, 2 Mar 2022 15:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 16:00:26.768364
- Title: DCT-Former: Efficient Self-Attention withDiscrete Cosine Transform
- Title(参考訳): DCT-Former:離散コサイン変換による効率的な自己認識
- Authors: Carmelo Scribano, Giorgia Franchini, Marco Prato and Marko Bertogna
- Abstract要約: トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導出するために、テキストトロシーデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 4.622165486890318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since their introduction the Trasformer architectures emerged as the
dominating architectures for both natural language processing and, more
recently, computer vision applications. An intrinsic limitation of this family
of "fully-attentive" architectures arises from the computation of the
dot-product attention, which grows both in memory consumption and number of
operations as $O(n^2)$ where $n$ stands for the input sequence length, thus
limiting the applications that require modeling very long sequences. Several
approaches have been proposed so far in the literature to mitigate this issue,
with varying degrees of success. Our idea takes inspiration from the world of
\textit{lossy} data compression (such as the JPEG algorithm) to derive an
approximation of the attention module by leveraging the properties of the
Discrete Cosine Transform. An extensive section of experiments shows that our
method takes up less memory for the same performance, while also drastically
reducing inference time. This makes it particularly suitable in real-time
contexts on embedded platforms. Moreover, we assume that the results of our
research might serve as a starting point for a broader family of deep neural
models with reduced memory footprint. The implementation will be made publicly
available at https://github.com/cscribano/DCT-Former-Public
- Abstract(参考訳): トラスフォーマーアーキテクチャの導入以来、自然言語処理とコンピュータビジョンアプリケーションの両方において支配的なアーキテクチャとして登場した。
これは、メモリ消費と演算数の両方が増加し、$O(n^2)$、$n$は入力シーケンスの長さを表すので、非常に長いシーケンスのモデリングを必要とするアプリケーションを制限する。
この問題を緩和するための文献では、いくつかのアプローチが提案されているが、成功度は様々である。
我々のアイデアは、離散コサイン変換の特性を活用してアテンションモジュールの近似を導出するために、textit{lossy}データ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,本手法が同一性能のメモリを消費しにくくし,推論時間を大幅に短縮することを示した。
これにより、特に組込みプラットフォーム上のリアルタイムコンテキストに適している。
さらに、我々の研究結果は、メモリフットプリントを削減したより広範なディープニューラルネットワークモデルの出発点となるかもしれないと仮定する。
実装はhttps://github.com/cscribano/DCT-Former-Publicで公開される。
関連論文リスト
- Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs [4.165917157093442]
本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。
大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。
複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
論文 参考訳(メタデータ) (2024-09-27T13:17:59Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Reinforcement Learning as a Parsimonious Alternative to Prediction
Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。
ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。
コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文 参考訳(メタデータ) (2024-02-19T01:17:52Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文 参考訳(メタデータ) (2022-12-22T18:55:45Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。