論文の概要: Customizing the Inductive Biases of Softmax Attention using Structured Matrices
- arxiv url: http://arxiv.org/abs/2509.07963v1
- Date: Tue, 09 Sep 2025 17:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.430024
- Title: Customizing the Inductive Biases of Softmax Attention using Structured Matrices
- Title(参考訳): 構造行列を用いたソフトマックス注意誘導バイアスのカスタマイズ
- Authors: Yilun Kuang, Noah Amsel, Sanae Lotfi, Shikai Qiu, Andres Potapczynski, Andrew Gordon Wilson,
- Abstract要約: 注意の中心となるコンポーネントはスコアリング関数で、入力を低次元のクエリとキーに変換する。
BTT(Block-Train)やMLR(Multi-Level Low Rank)など,高いランクを持つ計算効率の高い構造化行列に基づく新たなスコアリング関数を提案する。
MLRに基づくアテンション法は,標準アテンションとスライディングウインドウアテンションの変種に比較して,スケーリング法を改良する。
- 参考スコア(独自算出の注目度): 46.30740502186753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core component of attention is the scoring function, which transforms the inputs into low-dimensional queries and keys and takes the dot product of each pair. While the low-dimensional projection improves efficiency, it causes information loss for certain tasks that have intrinsically high-dimensional inputs. Additionally, attention uses the same scoring function for all input pairs, without imposing a distance-dependent compute bias for neighboring tokens in the sequence. In this work, we address these shortcomings by proposing new scoring functions based on computationally efficient structured matrices with high ranks, including Block Tensor-Train (BTT) and Multi-Level Low Rank (MLR) matrices. On in-context regression tasks with high-dimensional inputs, our proposed scoring functions outperform standard attention for any fixed compute budget. On language modeling, a task that exhibits locality patterns, our MLR-based attention method achieves improved scaling laws compared to both standard attention and variants of sliding window attention. Additionally, we show that both BTT and MLR fall under a broader family of efficient structured matrices capable of encoding either full-rank or distance-dependent compute biases, thereby addressing significant shortcomings of standard attention. Finally, we show that MLR attention has promising results for long-range time-series forecasting.
- Abstract(参考訳): 中心となるコンポーネントはスコアリング関数で、入力を低次元のクエリとキーに変換し、各ペアのドット積を取る。
低次元投影は効率を向上するが、本質的に高次元入力を持つ特定のタスクに対して情報損失を引き起こす。
さらに、アテンションは全ての入力ペアに対して同じスコアリング関数を使用し、シーケンス内の隣り合うトークンに対して距離依存の計算バイアスを課すことはない。
本稿では,Block Tensor-Train (BTT) やMulti-Level Low Rank (MLR) など,高いランクを持つ計算効率のよい構造化行列に基づく新たなスコアリング関数を提案することで,これらの欠点に対処する。
高次元入力を用いた文脈内回帰タスクにおいて,提案したスコアリング関数は,固定された計算予算に対して標準的注意力よりも優れていた。
局所性パターンを示す言語モデリングにおいて,MLRに基づくアテンション法は,標準アテンションとスライディングウィンドウアテンションのバリエーションの両方と比較して,スケーリング法則の改善を実現する。
さらに, BTT と MLR はともに, フルランクあるいは距離依存の計算バイアスを符号化可能な, より効率的な構造化行列群に該当し, 標準的注意力の重大な欠点に対処できることを示す。
最後に,MLRの注意が長距離時系列予測に有望な結果をもたらすことを示す。
関連論文リスト
- Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。
我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。
カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文 参考訳(メタデータ) (2025-03-03T14:09:13Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Learning distributed representations with efficient SoftMax normalization [3.8673630752805437]
有界ノルムを持つ埋め込みベクトルに対して$rm SoftMax(XYT)$の正規化定数を計算する線形時間近似を提案する。
本稿では,提案手法が競合手法よりも高い精度あるいは同等の精度を達成できるような事前学習した埋め込みデータセットについて述べる。
提案アルゴリズムは解釈可能で,任意の埋め込み問題に容易に適応できる。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。