論文の概要: Exact Causal Attention with 10% Fewer Operations
- arxiv url: http://arxiv.org/abs/2510.05175v2
- Date: Thu, 09 Oct 2025 09:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.56032
- Title: Exact Causal Attention with 10% Fewer Operations
- Title(参考訳): 10%下肢手術を施行した特発性因果性注意
- Authors: Dmitry Rybin, Yushun Zhang, Ding Tian, Zhihang Lin, Zhi-Quan Luo,
- Abstract要約: Exact Causal Attention (ECA)は、10%少ない演算で正確なCausal Attentionを計算するStrassenスタイルのアルゴリズムである。
ECAは、機械学習とサーチによって発見された代数的アイデンティティの上に構築されている。
- 参考スコア(独自算出の注目度): 24.423149527081506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Exact Causal Attention (ECA), a Strassen-style algorithm that computes exact Causal Attention using 10\% fewer operations. ECA improves a special class of matrix multiplications where either one operand or the output matrix is upper- or lower-triangular. This includes all matrix multiplication operations in the forward and backward pass of Causal Attention, such as masked product $\mathrm{Mask}(QK^{T})$. ECA is built upon algebraic identities discovered via machine learning and combinatorial search. We note that ECA cannot accelerate fused kernels such as FlashAttention on GPU. This is because ECA requires materialization of large intermediate expressions in the memory, while FlashAttention does not. However, it provides an alternative approach for compute-bound applications and can potentially be useful in scenarios with FLOPs considerations.
- Abstract(参考訳): 提案するExact Causal Attention (ECA, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention,ECA) は, ストラッセン方式のアルゴリズムである。
ECAは、一方のオペランドまたは出力行列が上または下三角形である特別な行列乗法を改良する。
これには、マスクされた積 $\mathrm{Mask}(QK^{T})$ のように、因果注意の前方および後方通過におけるすべての行列乗法演算が含まれる。
ECAは、機械学習と組合せ探索によって発見された代数的アイデンティティの上に構築されている。
我々は、GPU上でFlashAttentionのような融合カーネルを加速することはできないことに注意する。
これは、ECAがメモリ内の大きな中間表現を実体化する必要があるのに対して、FlashAttentionはそうではないためである。
しかし、これは計算バウンドアプリケーションに代替的なアプローチを提供しており、FLOPを考慮に入れたシナリオで有用である可能性がある。
関連論文リスト
- Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Fast Matrix Multiplication Without Tears: A Constraint Programming
Approach [8.52818380743467]
$N倍のM$行列と$M倍のP$行列の乗算は、単純な$NMPアプローチが示しているよりも少ない乗算で実現できることが知られている。
これにより、高速行列乗法における制約満足度問題が発生する。
本稿では,高速行列乗算のための非可換アルゴリズムを見つけるための,シンプルながら新しい制約プログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T19:15:24Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。
前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。
もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文 参考訳(メタデータ) (2022-01-21T12:18:06Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z) - A matrix math facility for Power ISA(TM) processors [0.16910097443356495]
マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。
これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。
コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
論文 参考訳(メタデータ) (2021-04-07T14:17:32Z) - What if Neural Networks had SVDs? [66.91160214071088]
様々なニューラルネットワークでは、行列反転のような時間を要する行列演算を採用している。
本稿では,行列演算を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-29T12:58:52Z) - Constant-Depth and Subcubic-Size Threshold Circuits for Matrix
Multiplication [1.9518237361775532]
大規模ニューラルネットワークハードウェアの最近の進歩は、その実践的実装を短期的可能性にしている。
しきい値ゲート論理を統合する2つの$N$を$N$行列に乗算する理論的アプローチについて述べる。
デンス行列乗算は畳み込みニューラルネットワークトレーニングにおけるコア演算である。
論文 参考訳(メタデータ) (2020-06-25T18:28:10Z) - Spectral Learning on Matrices and Tensors [74.88243719463053]
テンソル分解は行列法で欠落する潜伏効果を拾うことができることを示す。
また,効率的なテンソル分解法を設計するための計算手法についても概説する。
論文 参考訳(メタデータ) (2020-04-16T22:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。