論文の概要: HLA: Hadamard Linear Attention
- arxiv url: http://arxiv.org/abs/2602.12128v1
- Date: Thu, 12 Feb 2026 16:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.921885
- Title: HLA: Hadamard Linear Attention
- Title(参考訳): HLA:アダマール・リニア・アテンション
- Authors: Hanno Ackermann, Hong Cai, Mohsen Ghafoorian, Amirhossein Habibian,
- Abstract要約: 注意機構は変圧器の成功の重要な理由である。
トークン間のペア関係の計算に依存する。
効率的な近似法として 線形注意法が提案されています
- 参考スコア(独自算出の注目度): 23.409131174857666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism is an important reason for the success of transformers. It relies on computing pairwise relations between tokens. To reduce the high computational cost of standard quadratic attention, linear attention has been proposed as an efficient approximation. It employs kernel functions that are applied independently to the inputs before the pairwise similarities are calculated. That allows for an efficient computational procedure which, however, amounts to a low-degree rational function approximating softmax. We propose Hadamard Linear Attention (HLA). Unlike previous works on linear attention, the nonlinearity in HLA is not applied separately to queries and keys, but, analogously to standard softmax attention, after the pairwise similarities have been computed. It will be shown that the proposed nonlinearity amounts to a higher-degree rational function to approximate softmax. An efficient computational scheme for the proposed method is derived that is similar to that of standard linear attention. In contrast to other approaches, no time-consuming tensor reshaping is necessary to apply the proposed algorithm. The effectiveness of the approach is demonstrated by applying it to a large diffusion transformer model for video generation, an application that involves very large amounts of tokens.
- Abstract(参考訳): 注意機構は変圧器の成功の重要な理由である。
トークン間のペア関係の計算に依存する。
標準二次注意の計算コストを下げるため、効率的な近似法として線形注意法が提案されている。
これは、ペアの類似性が計算される前に、入力に独立して適用されるカーネル関数を用いる。
これにより、ソフトマックスを近似する低次有理関数に相当する効率的な計算処理が可能となる。
本稿では,アダマール線形注意(Hadamard Linear Attention, HLA)を提案する。
線形注意に関する従来の研究とは異なり、HLAの非線形性はクエリやキーに別々に適用されるのではなく、対の類似性が計算された後、標準的なソフトマックスの注意と類似している。
提案された非線形性は、ソフトマックスを近似する高次有理関数に等しいことが示される。
提案手法の効率的な計算手法は,標準線形注意法と類似している。
他の手法とは対照的に、提案アルゴリズムを適用するのに時間を要するテンソル変換は不要である。
この手法の有効性は、大量のトークンを含むビデオ生成のための大規模な拡散トランスフォーマモデルに適用することで実証される。
関連論文リスト
- Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - CLAP: Concave Linear APproximation for Quadratic Graph Matching [5.417323487240968]
線形モデルを導入し、グラフマッチングのための新しい近似行列を設計する。
次に、元のQAPを構造制約の凹凸となる線形モデルに変換する。
このモデルはシンクホーン最適輸送アルゴリズムを用いて解くことができる。
論文 参考訳(メタデータ) (2024-10-22T15:28:18Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Neural incomplete factorization: learning preconditioners for the conjugate gradient method [2.899792823251184]
我々は、効率的なプレコンディショナーの生成を加速するためのデータ駆動型アプローチを開発する。
一般的に手動のプリコンディショナーをグラフニューラルネットワークの出力に置き換える。
本手法は, 行列の不完全分解を発生させ, 神経不完全分解(NeuralIF)と呼ばれる。
論文 参考訳(メタデータ) (2023-05-25T11:45:46Z) - Learning distributed representations with efficient SoftMax normalization [3.8673630752805437]
有界ノルムを持つ埋め込みベクトルに対して$rm SoftMax(XYT)$の正規化定数を計算する線形時間近似を提案する。
本稿では,提案手法が競合手法よりも高い精度あるいは同等の精度を達成できるような事前学習した埋め込みデータセットについて述べる。
提案アルゴリズムは解釈可能で,任意の埋め込み問題に容易に適応できる。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - Quantum Splines for Non-Linear Approximations [2.064612766965483]
非線形近似のための量子スプラインの効率的な実装を提案する。
特に,まずパラメータを議論し,HHLアルゴリズムを利用するのに最も便利な方法を選択する。
論文 参考訳(メタデータ) (2023-03-09T17:21:11Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Efficient Alternating Least Squares Algorithms for Low Multilinear Rank
Approximation of Tensors [6.308492837096872]
テンソルの低次階数近似を効率的に計算するための最小二乗(ALS)に基づく新しいクラスHOSVDアルゴリズムを提案する。
ALSに基づくアプローチは、中間行列の特異ベクトルの冗長な計算を排除し、したがってデータの爆発をなくすことができる。
合成および実世界の双方の大規模テンソルを用いた数値実験により、ALSベースの手法が原材料全体のコストを大幅に削減し、並列計算に非常にスケーラブルであることを示す。
論文 参考訳(メタデータ) (2020-04-06T11:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。