Fugu-MT 論文翻訳(概要): DCT-Former: Efficient Self-Attention with Discrete Cosine Transform

論文の概要: DCT-Former: Efficient Self-Attention with Discrete Cosine Transform

arxiv url: http://arxiv.org/abs/2203.01178v2
Date: Thu, 3 Mar 2022 09:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 12:51:54.875349
Title: DCT-Former: Efficient Self-Attention with Discrete Cosine Transform
Title（参考訳）: DCT-Former:離散コサイン変換による効率的な自己認識
Authors: Carmelo Scribano, Giorgia Franchini, Marco Prato and Marko Bertogna
Abstract要約: トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
参考スコア（独自算出の注目度）: 4.622165486890318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since their introduction the Trasformer architectures emerged as the dominating architectures for both natural language processing and, more recently, computer vision applications. An intrinsic limitation of this family of "fully-attentive" architectures arises from the computation of the dot-product attention, which grows both in memory consumption and number of operations as $O(n^2)$ where $n$ stands for the input sequence length, thus limiting the applications that require modeling very long sequences. Several approaches have been proposed so far in the literature to mitigate this issue, with varying degrees of success. Our idea takes inspiration from the world of lossy data compression (such as the JPEG algorithm) to derive an approximation of the attention module by leveraging the properties of the Discrete Cosine Transform. An extensive section of experiments shows that our method takes up less memory for the same performance, while also drastically reducing inference time. This makes it particularly suitable in real-time contexts on embedded platforms. Moreover, we assume that the results of our research might serve as a starting point for a broader family of deep neural models with reduced memory footprint. The implementation will be made publicly available at https://github.com/cscribano/DCT-Former-Public
Abstract（参考訳）: トラスフォーマーアーキテクチャの導入以来、自然言語処理とコンピュータビジョンアプリケーションの両方において支配的なアーキテクチャとして登場した。これは、メモリ消費と演算数の両方が増加し、$O(n^2)$、$n$は入力シーケンスの長さを表すので、非常に長いシーケンスのモデリングを必要とするアプリケーションを制限する。この問題を緩和するための文献では、いくつかのアプローチが提案されているが、成功度は様々である。我々のアイデアは、離散コサイン変換の特性を活用してアテンションモジュールの近似を導出するために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,本手法が同一性能のメモリを消費しにくくし,推論時間を大幅に短縮することを示した。これにより、特に組込みプラットフォーム上のリアルタイムコンテキストに適している。さらに、我々の研究結果は、メモリフットプリントを削減したより広範なディープニューラルネットワークモデルの出発点となるかもしれないと仮定する。実装はhttps://github.com/cscribano/DCT-Former-Publicで公開される。

関連論文リスト

ResFormer: All-Time Reservoir Memory for Long Sequence Classification [4.298381633106637]
シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
論文参考訳（メタデータ） (2025-09-28T21:20:49Z)
Scaling Linear Attention with Sparse State Expansion [58.161410995744596]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文参考訳（メタデータ） (2025-07-22T13:27:31Z)
Compact Recurrent Transformer with Persistent Memory [16.48606806238812]
Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。高速なCRT(Compact Recurrent Transformer)を提案する。 CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
論文参考訳（メタデータ） (2025-05-02T00:11:44Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Scalable Cross-Entropy Loss for Sequential Recommendations with Large Item Catalogs [4.165917157093442]
本稿では,シーケンシャルラーニング・セットアップにおいて,新しいスケーラブルクロスエントロピー(SCE)損失関数を提案する。大規模なカタログを持つデータセットのCE損失を近似し、推奨品質を損なうことなく、時間効率とメモリ使用量の両方を向上する。複数のデータセットに対する実験結果から,SCEのピークメモリ使用率を最大100倍に抑える効果が示された。
論文参考訳（メタデータ） (2024-09-27T13:17:59Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Reinforcement Learning as a Parsimonious Alternative to Prediction Cascades: A Case Study on Image Segmentation [6.576180048533476]
PaSeR(Parsimonious with Reinforcement Learning)は、非スケーリングでコストを意識した学習パイプラインである。ケースドモデルと比較して計算コストを最小化しながら,PaSeRの精度が向上することを示す。コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。
論文参考訳（メタデータ） (2024-02-19T01:17:52Z)
LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-01-31T15:33:37Z)
Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。 Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-01-24T03:03:17Z)
Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。 In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文参考訳（メタデータ） (2023-10-17T01:05:28Z)
Scalable Adaptive Computation for Iterative Generation [13.339848496653465]
リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。 RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。 RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
論文参考訳（メタデータ） (2022-12-22T18:55:45Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。