論文の概要: Exact Causal Attention with 10% Fewer Operations
- arxiv url: http://arxiv.org/abs/2510.05175v3
- Date: Sat, 11 Oct 2025 06:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.648602
- Title: Exact Causal Attention with 10% Fewer Operations
- Title(参考訳): 10%下肢手術を施行した特発性因果性注意
- Authors: Dmitry Rybin, Yushun Zhang, Ding Tian, Zhihang Lin, Zhi-Quan Luo,
- Abstract要約: Exact Causal Attention (ECA)は、10%少ない演算で正確なCausal Attentionを計算するStrassenスタイルのアルゴリズムである。
ECAは、機械学習とサーチによって発見された代数的アイデンティティの上に構築されている。
- 参考スコア(独自算出の注目度): 24.423149527081506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Exact Causal Attention (ECA), a Strassen-style algorithm that computes exact Causal Attention using 10\% fewer operations. ECA improves a special class of matrix multiplications where either one operand or the output matrix is upper- or lower-triangular. This includes all matrix multiplication operations in the forward and backward pass of Causal Attention, such as masked product $\mathrm{Mask}(QK^{T})$. ECA is built upon algebraic identities discovered via machine learning and combinatorial search. We note that ECA cannot accelerate fused kernels such as FlashAttention on GPU. This is because ECA requires materialization of large intermediate expressions in the memory, while FlashAttention does not. However, it provides an alternative approach for compute-bound applications and can potentially be useful in scenarios with FLOPs considerations.
- Abstract(参考訳): 提案するExact Causal Attention (ECA, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention, Exact Causal Attention,ECA) は, ストラッセン方式のアルゴリズムである。
ECAは、一方のオペランドまたは出力行列が上または下三角形である特別な行列乗法を改良する。
これには、マスクされた積 $\mathrm{Mask}(QK^{T})$ のように、因果注意の前方および後方通過におけるすべての行列乗法演算が含まれる。
ECAは、機械学習と組合せ探索によって発見された代数的アイデンティティの上に構築されている。
我々は、GPU上でFlashAttentionのような融合カーネルを加速することはできないことに注意する。
これは、ECAがメモリ内の大きな中間表現を実体化する必要があるのに対して、FlashAttentionはそうではないためである。
しかし、これは計算バウンドアプリケーションに代替的なアプローチを提供しており、FLOPを考慮に入れたシナリオで有用である可能性がある。
関連論文リスト
- Vision Transformers are Circulant Attention Learners [30.300457741980846]
自己注意機構は視覚変換器の進歩の鍵となる要素である。
我々は,自己注意の本質的効率的なパターンを生かして,textbfCirculant Attentionと呼ばれる新しい注意パラダイムを提案する。
論文 参考訳(メタデータ) (2025-12-25T07:28:33Z) - Vectorized FlashAttention with Low-cost Exponential Computation in RISC-V Vector Processors [5.385189465543017]
この研究は、ベクトルプロセッサにおけるFlashAttentionアルゴリズムを用いたアテンションカーネルの高速化に焦点を当てている。
浮動小数点算術における指数関数の低コスト近似を利用して指数関数の計算コストを削減する。
論文 参考訳(メタデータ) (2025-10-08T09:55:32Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Sparser, Better, Faster, Stronger: Sparsity Detection for Efficient Automatic Differentiation [0.0]
ヤコビアン行列とヘッセン行列は機械学習(ML)における多くの潜在的なユースケースを持つ
本稿では, 自動スパース差分法(ASD)の性能ボトルネックである疎度検出の進歩について述べる。
科学ML,グラフニューラルネットワーク,最適化といった実世界の問題に対して,最大3桁の大幅なスピードアップを示す。
論文 参考訳(メタデータ) (2025-01-29T16:21:54Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Fast Matrix Multiplication Without Tears: A Constraint Programming
Approach [8.52818380743467]
$N倍のM$行列と$M倍のP$行列の乗算は、単純な$NMPアプローチが示しているよりも少ない乗算で実現できることが知られている。
これにより、高速行列乗法における制約満足度問題が発生する。
本稿では,高速行列乗算のための非可換アルゴリズムを見つけるための,シンプルながら新しい制約プログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T19:15:24Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Attention Mechanism with Energy-Friendly Operations [61.58748425876866]
我々はエネルギー消費の観点から注意機構を再考する。
我々は、乗算を選択的操作または加算に置き換えることで、新しい注意モデルを構築する。
3つの機械翻訳タスクにおける実験結果から,提案手法が再現可能な精度を実現することを示す。
論文 参考訳(メタデータ) (2022-04-28T08:50:09Z) - Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。
前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。
もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文 参考訳(メタデータ) (2022-01-21T12:18:06Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z) - A matrix math facility for Power ISA(TM) processors [0.16910097443356495]
マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。
これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。
コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
論文 参考訳(メタデータ) (2021-04-07T14:17:32Z) - What if Neural Networks had SVDs? [66.91160214071088]
様々なニューラルネットワークでは、行列反転のような時間を要する行列演算を採用している。
本稿では,行列演算を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-29T12:58:52Z) - Tensor Relational Algebra for Machine Learning System Design [7.764107702934616]
本稿では、リレーショナルテンソル代数(TRA)と呼ばれる別の実装抽象化を提案する。
TRA は、リレーショナル代数に基づく集合基底代数である。
我々の実証研究は、最適化されたTRAベースのバックエンドが、分散クラスタでMLを実行する際の選択肢を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-09-01T15:51:24Z) - Constant-Depth and Subcubic-Size Threshold Circuits for Matrix
Multiplication [1.9518237361775532]
大規模ニューラルネットワークハードウェアの最近の進歩は、その実践的実装を短期的可能性にしている。
しきい値ゲート論理を統合する2つの$N$を$N$行列に乗算する理論的アプローチについて述べる。
デンス行列乗算は畳み込みニューラルネットワークトレーニングにおけるコア演算である。
論文 参考訳(メタデータ) (2020-06-25T18:28:10Z) - Spectral Learning on Matrices and Tensors [74.88243719463053]
テンソル分解は行列法で欠落する潜伏効果を拾うことができることを示す。
また,効率的なテンソル分解法を設計するための計算手法についても概説する。
論文 参考訳(メタデータ) (2020-04-16T22:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。