論文の概要: Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation
- arxiv url: http://arxiv.org/abs/2602.00294v1
- Date: Fri, 30 Jan 2026 20:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.101031
- Title: Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation
- Title(参考訳): 対称性を考慮したTaylor近似によるトークン当たりのコスト一定での自己注意
- Authors: Franz A. Heinsen, Leo Kozachkov,
- Abstract要約: トークン当たりのコストは一定であり,自己注意は任意の精度で効率的に計算可能であることを示す。
当社の作業は,トークン生成を最小の固定コストで実現し,大規模トランスフォーマーモデルのインフラストラクチャとエネルギー需要を大幅に削減する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most widely used artificial intelligence (AI) models today are Transformers employing self-attention. In its standard form, self-attention incurs costs that increase with context length, driving demand for storage, compute, and energy that is now outstripping society's ability to provide them. To help address this issue, we show that self-attention is efficiently computable to arbitrary precision with constant cost per token, achieving orders-of-magnitude reductions in memory use and computation. We derive our formulation by decomposing the conventional formulation's Taylor expansion into expressions over symmetric chains of tensor products. We exploit their symmetry to obtain feed-forward transformations that efficiently map queries and keys to coordinates in a minimal polynomial-kernel feature basis. Notably, cost is fixed inversely in proportion to head size, enabling application over a greater number of heads per token than otherwise feasible. We implement our formulation and empirically validate its correctness. Our work enables unbounded token generation at modest fixed cost, substantially reducing the infrastructure and energy demands of large-scale Transformer models. The mathematical techniques we introduce are of independent interest.
- Abstract(参考訳): 今日最も広く使用されている人工知能(AI)モデルは、自己注意型トランスフォーマーである。
標準的な形態では、自己注意は、文脈の長さの増加とともにコストが増大し、記憶、計算、エネルギーに対する需要が、現在それらを提供する社会の能力を上回っている。
この問題に対処するために,自己注意はトークン当たりの任意の精度で効率よく計算可能であり,メモリ使用量や計算量を大幅に削減できることを示す。
我々は、従来の定式化のテイラー展開をテンソル積の対称鎖上の表現に分解することで、定式化を導出する。
我々はそれらの対称性を利用して、クエリとキーを最小の多項式カーネル特徴ベースで座標に効率的にマッピングするフィードフォワード変換を得る。
特に、コストはヘッドサイズに比例して逆向きに固定されるため、トークン当たりのヘッド数が他の実現可能性よりも多く適用できる。
我々は定式化を実装し、その正しさを実証的に検証する。
我々の研究は、固定コストで無制限のトークン生成を可能にし、大規模トランスフォーマーモデルのインフラとエネルギー需要を大幅に削減する。
私たちが導入する数学的手法は独立した関心事です。
関連論文リスト
- Fast and Simplex: 2-Simplicial Attention in Triton [30.500203127313576]
標準的な点積注意をトリ線形関数に一般化するアーキテクチャである2-simplicial Transformerの使用について検討する。
固定されたトークン予算では、同様の大きさのモデルが、数学、コーディング、推論、論理といったタスクにおいて、ドット積よりも優れています。
論文 参考訳(メタデータ) (2025-07-03T16:16:34Z) - Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality [29.531450446701175]
本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。
トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。
我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
論文 参考訳(メタデータ) (2025-05-23T11:30:30Z) - Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - Softmax Attention with Constant Cost per Token [0.0]
スケールされたドット積とペアワイズクエリキーの類似性を定量化する代わりに、指数関数のスケールされたドット積の対数で定量化する。
我々の修正は、対応する特徴関数が無限次元である指数カーネル特徴写像に注意を向ける。
論文 参考訳(メタデータ) (2024-04-08T20:14:10Z) - CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference [36.753384415107774]
言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
トークンレベルでのChain-of-Thought(CoT)を忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
精度を下げることなく計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2023-10-16T21:37:34Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。