論文の概要: The FFT Strikes Again: A Plug and Play Efficient Alternative to Self-Attention
- arxiv url: http://arxiv.org/abs/2502.18394v6
- Date: Wed, 30 Apr 2025 23:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 21:19:51.20749
- Title: The FFT Strikes Again: A Plug and Play Efficient Alternative to Self-Attention
- Title(参考訳): FFTが再び挑戦: 自己認識の代替としてプラグインとプレイを効果的に
- Authors: Jacob Fein-Ashley, Neelesh Gupta, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: SPECTREはTransformer推論のためのドロップイン周波数ドメインミキサーである。
PG-19 と ImageNet-1k では、SPECTRE は FlashAttention-2 よりも 7 倍速い速度で実行しながら、二次的な注意をそろえるか超えている。
四角い壁を長距離の推論のために対数ランプに置き換える。
- 参考スコア(独自算出の注目度): 2.200751835496112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic cost of self-attention makes context length the chief bottleneck in Transformer inference. We introduce \textbf{SPECTRE}, a drop-in frequency-domain mixer whose per-layer cost scales only as $\mathcal{O}(L\log L)$. SPECTRE projects tokens with a real FFT, applies a learned diagonal gate, inverts the transform, and-optionally-adds a lightweight wavelet refinement for local detail. The rest of the model is untouched, so fine-tuning just the new weights suffices. On PG-19 and ImageNet-1k, SPECTRE matches or exceeds quadratic attention while running up to $7\times$ faster than FlashAttention-2 and enabling 32k-token inference on a single GPU. It replaces the quadratic wall with a logarithmic ramp for long-range reasoning.
- Abstract(参考訳): 自己注意の二次コストは、コンテクストの長さをトランスフォーマー推論における主要なボトルネックにする。
本稿では,1層あたりのコストを$\mathcal{O}(L\log L)$としてのみスケールする,ドロップイン型周波数ドメインミキサーである「textbf{SPECTRE}」を紹介する。
SPECTREはトークンを実際のFFTでプロジェクションし、学習した対角ゲートを適用し、変換を反転させ、オプションで局所的な詳細のために軽量ウェーブレットリファインメントを追加する。
残りのモデルにはタッチがないので、新しいウェイトだけを微調整すれば十分です。
PG-19 と ImageNet-1k では、SPECTRE は、FlashAttention-2 よりも 7\times$ の速さで実行し、1つの GPU 上で 32k の推論を可能にする。
四角い壁を長距離の推論のために対数ランプに置き換える。
関連論文リスト
- Block Circulant Adapter for Large Language Models [10.353352027807272]
大規模言語モデル (LLM) の調整は, モデルサイズが大きいため困難である。
最近のフーリエ領域に基づく手法は、微調整コストを削減する可能性を示している。
本研究では, 循環行列の特性を活用するために, 安定トレーニングを施したブロック循環行列微調整法を提案する。
論文 参考訳(メタデータ) (2025-05-01T15:14:32Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis [9.969451740838418]
時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。
NFM はフーリエ変換 (FT) の2つの重要な性質 (i) 有限長時系列をフーリエ領域の関数としてモデル化する能力 (ii) フーリエ領域内のデータ操作の能力 (ii) に基礎を置いている。
NFMは幅広いタスクで最先端のパフォーマンスを達成しており、テスト時にこれまで見つからなかったサンプリングレートを持つ時系列シナリオに挑戦する。
論文 参考訳(メタデータ) (2024-10-07T02:39:55Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - Parameter-Efficient Fine-Tuning with Discrete Fourier Transform [26.563344030824414]
ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-05T17:15:24Z) - ATFNet: Adaptive Time-Frequency Ensembled Network for Long-term Time Series Forecasting [7.694820760102176]
ATFNetは、時間ドメインモジュールと周波数ドメインモジュールを組み合わせた革新的なフレームワークである。
本稿では,2つのモジュール間の重み調整機構であるドミナント・ハーモニック・シリーズ・エナジー・ウェイトリングを紹介する。
我々の複素数値スペクトル注意機構は、異なる周波数の組み合わせ間の複雑な関係を識別するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-04-08T04:41:39Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor
Cores [18.016204763652553]
長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示している。
Fast Fourier Transform (FFT) は、長い畳み込みを$O(N logN)$ time in sequence length $N$で実行可能にするが、ハードウェア利用は乏しい。
本稿では,FFT畳み込みの最適化方法について検討する。
論文 参考訳(メタデータ) (2023-11-10T07:33:35Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - Dynamic Temporal Filtering in Video Models [128.02725199486719]
時間的特徴学習の新しいレシピである動的時間フィルタ(DTF)を提案する。
DTFは、その長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを学習する。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
論文 参考訳(メタデータ) (2022-11-15T15:59:28Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Long-term Leap Attention, Short-term Periodic Shift for Video
Classification [41.87505528859225]
ビデオトランスは、静的な視覚変換器よりも計算負荷が大きい。
本稿では,ビデオトランスフォーマーのための長期的textbftextitLeap Attention'(LAN),短期的textbftextitPeriodic Shift'(textitP-Shift)モジュールであるLAPSを提案する。
論文 参考訳(メタデータ) (2022-07-12T13:30:15Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。