Fugu-MT 論文翻訳(概要): Softmax Attention with Constant Cost per Token

論文の概要: Softmax Attention with Constant Cost per Token

arxiv url: http://arxiv.org/abs/2404.05843v1
Date: Mon, 8 Apr 2024 20:14:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 18:38:39.986569
Title: Softmax Attention with Constant Cost per Token
Title（参考訳）: トークンあたりのコストを一定に設定したSoftmaxアテンション
Authors: Franz A. Heinsen,
Abstract要約: スケールされたドット積とペアワイズクエリキーの類似性を定量化する代わりに、指数関数のスケールされたドット積の対数で定量化する。われわれは修正を実施し、実際に動作していることを確認し、従来の注意の代替として有望なものであると結論づける。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a simple modification to the conventional attention mechanism applied by Transformers: Instead of quantifying pairwise query-key similarity with scaled dot-products, we quantify it with the logarithms of scaled dot-products of exponentials. Attention becomes expressible as a composition of log-sums of exponentials that is linearizable, with a latent space of constant size, enabling sequential application with constant time and space complexity per token. We implement our modification, verify that it works in practice, and conclude that it is a promising alternative to conventional attention.
Abstract（参考訳）: そこで我々は,Transformers が適用した従来の注意機構の簡単な修正を提案し,拡張ドット積とペアワイズクエリキーの類似性を定量化するのではなく,指数関数のスケールドット積の対数で定量化する。注意は、線形化可能な指数関数の対数の合成として表現され、一定の大きさの潜在空間を持ち、トークンあたりの時間と空間の複雑さの連続的な適用を可能にする。われわれは修正を実施し、実際に動作していることを確認し、従来の注意の代替として有望なものであると結論づける。

関連論文リスト

Self-Attention at Constant Cost per Token via Symmetry-Aware Taylor Approximation [1.7188280334580195]
トークン当たりのコストは一定であり,自己注意は任意の精度で効率的に計算可能であることを示す。当社の作業は,トークン生成を最小の固定コストで実現し,大規模トランスフォーマーモデルのインフラストラクチャとエネルギー需要を大幅に削減する。
論文参考訳（メタデータ） (2026-01-30T20:38:02Z)
Linear combination of unitaries with exponential convergence [0.0]
単項演算子の線形結合に非単項演算子を分解する一般的な方法を提案する。量子回路で実装されると、結果のブロックエンコーディングのサブ正規化は逆誤差の二重対数でスケールする。
論文参考訳（メタデータ） (2026-01-25T22:47:21Z)
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文参考訳（メタデータ） (2025-11-30T16:17:34Z)
Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文参考訳（メタデータ） (2024-12-23T18:59:21Z)
Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文参考訳（メタデータ） (2024-12-04T11:05:01Z)
EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文参考訳（メタデータ） (2024-03-26T14:18:43Z)
Latte: Latent Attention for Linear Time Transformers [11.524573224123905]
注意を喚起するための確率的枠組みを提案する。本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。結果として生じるLatte Transformer'は、標準的な注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-27T13:54:48Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文参考訳（メタデータ） (2022-11-08T08:14:11Z)
Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文参考訳（メタデータ） (2022-10-21T08:13:34Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Understanding and Overcoming the Challenges of Efficient Transformer Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文参考訳（メタデータ） (2021-09-27T10:57:18Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Exponential enhancement of quantum metrology using continuous variables [15.102680713021368]
本稿では,測定感度を指数関数的に向上させる信号プローブハミルトニアンの設計を提案する。時間と結合項数の両方の線形スケーリングは指数関数的拡張を得るのに十分であることを示す。
論文参考訳（メタデータ） (2020-04-02T18:20:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。