Fugu-MT 論文翻訳(概要): Cottention: Linear Transformers With Cosine Attention

論文の概要: Cottention: Linear Transformers With Cosine Attention

arxiv url: http://arxiv.org/abs/2409.18747v1
Date: Fri, 27 Sep 2024 13:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 14:25:07.509949
Title: Cottention: Linear Transformers With Cosine Attention
Title（参考訳）: cottention:cosineアテンション付きリニアトランスフォーマー
Authors: Gabriel Mongaras, Trevor Dohm, Eric C. Larson,
Abstract要約: ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。 Cottentionは、配列長に関してネイティブな線形メモリ複雑性を実現し、ソフトマックスの注意よりも本質的にメモリ効率が良い。
参考スコア（独自算出の注目度）: 2.762180345826837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention mechanisms, particularly softmax attention, have been instrumental in the success of transformer-based models such as GPT. However, the quadratic memory complexity of softmax attention with respect to sequence length poses significant challenges for processing longer sequences. We introduce Cottention, a novel attention mechanism that replaces the softmax operation with cosine similarity. By leveraging the properties of cosine similarity and rearranging the attention equation, Cottention achieves native linear memory complexity with respect to sequence length, making it inherently more memory-efficient than softmax attention. We demonstrate that Cottention can be reformulated as a recurrent neural network (RNN) with a finite hidden state, allowing for constant memory usage during inference. We evaluate Cottention on both the bidirectional BERT and causal GPT tasks, demonstrating comparable performance to softmax attention while significantly reducing memory requirements. To ensure efficient computation, we develop a custom CUDA kernel for Cottention. Our results show that Cottention is a promising alternative to softmax attention, enabling the processing of longer sequences without sacrificing performance, due to its native linear memory complexity and ability to maintain a constant memory footprint during inference.
Abstract（参考訳）: 注意機構、特にソフトマックスの注意は、GPTのようなトランスフォーマーベースのモデルの成功に役立っている。しかし、配列長に対するソフトマックスの注意の二次記憶複雑性は、より長いシーケンスを処理する上で大きな課題となる。ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。コサイン類似性の性質を活用し、注意方程式を再構成することにより、Cottentionは、配列長に関してネイティブな線形メモリ複雑性を達成し、ソフトマックスの注意よりも本質的にメモリ効率が良い。我々は、Cottentionを有限な隠れ状態のリカレントニューラルネットワーク(RNN)として再構成することができ、推論時のメモリ使用量を一定にすることができることを示した。我々は、双方向BERTタスクと因果GPTタスクの両方においてCottentionを評価し、ソフトマックスアテンションに匹敵する性能を示しながら、メモリ要求を大幅に低減した。効率的な計算を実現するため、我々はCottention用のカスタムCUDAカーネルを開発した。本研究の結果から,Cottention はソフトマックスアテンションに代わる有望な代替手段であり,線形メモリの複雑さと推論中に一定のメモリフットプリントを維持する能力により,性能を犠牲にすることなく長いシーケンスを処理できることが示唆された。

関連論文リスト

Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models [7.961563754693873]
異なるトークンに対して同一レイヤ内での線形アテンションとソフトマックスアテンションの両方を適用可能なフレームワークを提案する。 NAtS-Lは、トークンが線形アテンションモデル(短期的な影響しか持たないトークン)で処理できるかどうかを自動的に決定する。トークン間の最適Gated DeltaNetとソフトマックスアテンションの組み合わせを探索することにより、NAtS-Lは強力で効率的なトークンレベルのハイブリッドアーキテクチャを提供することを示す。
論文参考訳（メタデータ） (2026-02-03T16:02:50Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving [11.750209684686707]
大きな言語モデル(LLM)による生成的推論は、しばしば長い復号シーケンスを含む。本稿では,動的KVキャッシュ管理フレームワークLetheを提案する。 Letheは様々なモデルやタスク間で効率と生成品質のバランスを良好に保ち、スループットを最大2.56倍に向上させる。
論文参考訳（メタデータ） (2025-11-08T14:52:43Z)
Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文参考訳（メタデータ） (2025-06-13T15:35:54Z)
Lattice: Learning to Efficiently Compress the Memory [13.765057453744427]
本稿では,キャッシュを一定数のメモリスロットに効率よく圧縮する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。実験結果から,Latticeはコンテキスト長の異なるすべてのベースラインと比較して,最も難易度が高いことがわかった。
論文参考訳（メタデータ） (2025-04-08T03:48:43Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
ELASTIC: Efficient Linear Attention for Sequential Interest Compression [5.689306819772134]
最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。逐次的関心圧縮のための効率的な線形注意法であるELASTICを提案する。我々は、様々な公開データセットに関する広範な実験を行い、それをいくつかの強力なシーケンシャルなレコメンデータと比較する。
論文参考訳（メタデータ） (2024-08-18T06:41:46Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)
cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文参考訳（メタデータ） (2022-02-17T17:53:48Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。