論文の概要: From TLinFormer to TConstFormer: The Leap to Constant-Time Transformer Attention: Achieving O(1) Computation and O(1) KV Cache during Autoregressive Inference
- arxiv url: http://arxiv.org/abs/2509.00202v1
- Date: Fri, 29 Aug 2025 19:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.124932
- Title: From TLinFormer to TConstFormer: The Leap to Constant-Time Transformer Attention: Achieving O(1) Computation and O(1) KV Cache during Autoregressive Inference
- Title(参考訳): TLinFormer から TConstFormer: The Leap to Constant-Time Transformer Attention: Achieving O(1) Computation and O(1) KV Cache during Autoregressive Inference
- Authors: Zhongpan Tang,
- Abstract要約: TConstFormerは、真に一定サイズのO(1) KVキャッシュを実現するために、革新的な周期的な状態更新メカニズムを採用している。
TConstFormerは、長文推論タスクにおける速度、メモリ効率、全体的なパフォーマンスの点で、ベースラインモデルよりも圧倒的な優位性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the Transformer has become the cornerstone of modern AI, its autoregressive inference suffers from a linearly growing KV Cache and a computational complexity of O(N^2 d), severely hindering its ability to process ultra-long sequences. To overcome this limitation, this paper introduces the TConstFormer architecture, building upon our previous work, TLinFormer. TConstFormer employs an innovative periodic state update mechanism to achieve a truly constant-size O(1) KV Cache. The computational complexity of this mechanism is also O(1) in an amortized sense: it performs purely constant-time computations for $k-1$ consecutive steps (e.g., $k=256$) and executes a single linear-time global information synchronization only on the $k$-th step. Theoretical calculations and experimental results demonstrate that TConstFormer exhibits an overwhelming advantage over baseline models in terms of speed, memory efficiency, and overall performance on long-text inference tasks. This breakthrough paves the way for efficient and robust streaming language model applications.
- Abstract(参考訳): Transformerは現代のAIの基盤となっているが、その自己回帰推論は線形に増大するKVキャッシュとO(N^2 d)の計算複雑性に悩まされており、超長いシーケンスを処理する能力を著しく妨げている。
この制限を克服するために、本稿では、これまでの研究であるTLinFormerに基づいて、TConstFormerアーキテクチャを紹介します。
TConstFormerは、真に一定サイズのO(1) KVキャッシュを実現するために、革新的な周期的な状態更新メカニズムを採用している。
これは、$k-1$連続ステップ(例えば$k=256$)に対して純粋に定数時間計算を行い、$k$-thステップでのみ1つの線形時間グローバル情報同期を実行する。
理論計算と実験結果から, TConstFormerは, 長文推論タスクにおける速度, メモリ効率, 全体的な性能において, ベースラインモデルに対して圧倒的な優位性を示した。
このブレークスルーは、効率的で堅牢なストリーミング言語モデルアプリケーションへの道を開いた。
関連論文リスト
- Rethinking Transformer Connectivity: TLinFormer, A Path to Exact, Full Context-Aware Linear Attention [0.0]
本稿では,新しいリニアアテンションアーキテクチャ-textbfTLinFormerを提案する。
ニューロン接続パターンを再構成することにより、TLinFormerは正確な注意スコアを計算しながら厳密な線形複雑性を実現する。
TLinFormerは,textbfinference遅延, textbfKVキャッシュ効率, textbfMemoryフットプリントといった重要な指標において,圧倒的な優位性を示すことを示す。
論文 参考訳(メタデータ) (2025-08-28T04:10:19Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Fine-Tuning Pre-trained Transformers into Decaying Fast Weights [1.1802674324027231]
自己アテンション機構による自己回帰変換器は, トーケン世代ごとのO(T)複雑性を誘発する。
近年の研究では、因果自己注意を近似するカーネルベースの手法が提案されている。
我々は、GPU上で高速に動作し、先行手法より優れ、GPT-2に対する注意力の99%を維持できる単純な代替手段である、崩壊する高速ウェイトを提案する。
論文 参考訳(メタデータ) (2022-10-09T12:27:25Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。