Fugu-MT 論文翻訳(概要): Exact Causal Attention with 10% Fewer Operations

論文の概要: Exact Causal Attention with 10% Fewer Operations

arxiv url: http://arxiv.org/abs/2510.05175v1
Date: Sun, 05 Oct 2025 11:53:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-08 17:57:07.887496
Title: Exact Causal Attention with 10% Fewer Operations
Title（参考訳）: 10%下肢手術を施行した特発性因果性注意
Authors: Dmitry Rybin, Yushun Zhang, Ding Tian, Zhihang Lin, Ruoyu Sun, Zhi-Quan Luo,
Abstract要約: Fast Causal Attention (FCA) は、10%少ない演算で正確なCausal Attentionを計算するアルゴリズムである。 FCAはPyTorch実装とTritonコンパイルカーネル上に構築されている。
参考スコア（独自算出の注目度）: 25.845438417219885
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present Fast Causal Attention (FCA), an algorithm that computes exact Causal Attention using 10\% fewer operations. FCA accelerates a special class of matrix multiplications where either one operand or the output matrix is upper- or lower-triangular. This includes all operations in forward and backward pass of Causal Attention, such as masked product $\mathrm{Mask}(QK^{T})$. For these matrix multiplications on GPU, FCA reaches noticeable accelerations over the default PyTorch implementations and Triton compiled kernels. FCA is built upon algebraic identities discovered via machine learning and combinatorial search.
Abstract（参考訳）: 本稿では,10倍の演算量で正確な因果注意を計算するアルゴリズムであるFCAを提案する。 FCAは、一方のオペランドまたは出力行列が上または下三角形である特別な行列乗法を加速する。これは、マスクされた積 $\mathrm{Mask}(QK^{T})$ のような因果注意の前後の操作を含む。 GPU上のこれらの行列乗算に対して、FCAはデフォルトのPyTorch実装とTritonコンパイルされたカーネルよりも顕著な加速を達成した。 FCAは、機械学習と組合せ探索によって発見された代数的アイデンティティの上に構築されている。

関連論文リスト

Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文参考訳（メタデータ） (2024-05-08T17:11:38Z)
CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文参考訳（メタデータ） (2023-09-06T14:59:38Z)
Fast Matrix Multiplication Without Tears: A Constraint Programming Approach [8.52818380743467]
$N倍のM$行列と$M倍のP$行列の乗算は、単純な$NMPアプローチが示しているよりも少ない乗算で実現できることが知られている。これにより、高速行列乗法における制約満足度問題が発生する。本稿では,高速行列乗算のための非可換アルゴリズムを見つけるための,シンプルながら新しい制約プログラミング手法を提案する。
論文参考訳（メタデータ） (2023-06-01T19:15:24Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Fast Differentiable Matrix Square Root [65.67315418971688]
微分可能な行列平方根を計算するために、より効率的な2つの変種を提案する。前方伝播には, Matrix Taylor Polynomial (MTP) を用いる方法がある。もう1つの方法は Matrix Pad'e Approximants (MPA) を使うことである。
論文参考訳（メタデータ） (2022-01-21T12:18:06Z)
Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-21T05:08:54Z)
A matrix math facility for Power ISA(TM) processors [0.16910097443356495]
マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
論文参考訳（メタデータ） (2021-04-07T14:17:32Z)
What if Neural Networks had SVDs? [66.91160214071088]
様々なニューラルネットワークでは、行列反転のような時間を要する行列演算を採用している。本稿では,行列演算を高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-09-29T12:58:52Z)
Constant-Depth and Subcubic-Size Threshold Circuits for Matrix Multiplication [1.9518237361775532]
大規模ニューラルネットワークハードウェアの最近の進歩は、その実践的実装を短期的可能性にしている。しきい値ゲート論理を統合する2つの$N$を$N$行列に乗算する理論的アプローチについて述べる。デンス行列乗算は畳み込みニューラルネットワークトレーニングにおけるコア演算である。
論文参考訳（メタデータ） (2020-06-25T18:28:10Z)
Spectral Learning on Matrices and Tensors [74.88243719463053]
テンソル分解は行列法で欠落する潜伏効果を拾うことができることを示す。また,効率的なテンソル分解法を設計するための計算手法についても概説する。
論文参考訳（メタデータ） (2020-04-16T22:53:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。