論文の概要: Positional LSH: Binary Block Matrix Approximation for Attention with Linear Biases
- arxiv url: http://arxiv.org/abs/2605.09472v1
- Date: Sun, 10 May 2026 10:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.266893
- Title: Positional LSH: Binary Block Matrix Approximation for Attention with Linear Biases
- Title(参考訳): 位置LSH: 2成分ブロック行列近似によるリニアビアーゼの注意度評価
- Authors: Daniel Wolfson, Tal Wagner,
- Abstract要約: 局所性感応性ハッシュ(LSH)レンズによる位置バイアスによる注意度の検討
ALiBi バイアス行列は,位置 LSH' スキームによって誘導される連続ブロック対角二乗マスクの期待値であることを示す。
- 参考スコア(独自算出の注目度): 10.27725229355938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional encoding in transformers is commonly implemented through positional embeddings, attention masks, or bias terms, but formal connections between these mechanisms remain limited. We study attention with positional bias through the lens of locality-sensitive hashing (LSH), focusing on Attention with Linear Biases (ALiBi). We show that the ALiBi bias matrix is the expectation of contiguous block-diagonal binary masks induced by a ``positional LSH'' scheme. The empirical mean of masks sampled from this scheme yields spectral norm and max-norm approximation guarantees with bounded block sizes with high probability. This structural theorem implies a uniform approximation theorem for ALiBi-biased attention: with high probability over the sampled masks, the approximate attention output is accurate simultaneously for all query-key-value inputs and can be computed in near-linear time in the context length, reducing long-context ALiBi to a collection of randomized short-context regular (positionally unbiased) attention operations. Conceptually, this connects positional bias, masks, and positional embeddings in a single formal framework and suggests an approach to efficient ALiBi-biased attention. Experiments on large language models validate our theoretical findings.
- Abstract(参考訳): トランスにおける位置符号化は、一般に位置埋め込み、注意マスク、バイアス項によって実装されるが、これらのメカニズム間の正式な接続は限られている。
局所性感応性ハッシュ (LSH) レンズを用いた位置バイアスによる注意調査を行い, 線形バイアス (ALiBi) による注意点に着目した。
ALiBi バイアス行列は ``positional LSH'' スキームによって誘導される連続ブロック対角二乗マスクの期待値であることを示す。
このスキームからサンプリングされたマスクの実証平均は、スペクトルノルムと最大ノルム近似を高い確率で有界ブロックサイズで保証する。
この構造定理は ALiBi-biased attention に対する一様近似定理を示唆する: サンプリングされたマスクよりも高い確率で、近似された注意出力は全てのクエリキー値入力に対して同時に正確であり、コンテキスト長においてほぼ直線時間で計算できる。
概念的には、これは1つの正式な枠組みに位置バイアス、マスク、位置埋め込みを結びつけ、効率的なALiBiバイアス付き注意へのアプローチを提案する。
大規模言語モデルの実験は、我々の理論的な結果を検証する。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Prism: Spectral-Aware Block-Sparse Attention [46.31167787304103]
既存の手法では、ブロックの重要度推定のプロキシとして、粗い注意力を用いるのが一般的である。
平均プーリングは、高周波次元における破壊干渉を引き起こす低域通過フィルタとして機能する。
ブロック選択を高周波および低周波分岐に分解する,トレーニング不要なスペクトル認識手法であるPrismを導入する。
論文 参考訳(メタデータ) (2026-02-09T09:31:06Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Local Information-Theoretic Security via Euclidean Geometry [0.0]
本稿では,ユクリッド情報理論に基づく手法を提案し,メモリレス通信路上でのセキュア通信の局所特性について検討する。
我々は,情報漏洩を盗聴者の情報効率と秘密メッセージの最大一般化コストの両方を分析した。
論文 参考訳(メタデータ) (2025-10-15T15:19:59Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - HyPE: Attention with Hyperbolic Biases for Relative Positional Encoding [0.0]
Transformerベースのアーキテクチャでは、アテンション機構は入力シーケンスのトークンに関して本質的に置換不変である。
本稿では,双曲関数の特性を利用してトークンの相対位置を符号化する新しい手法である,双曲的位置注意(HyPE)を紹介する。
論文 参考訳(メタデータ) (2023-10-30T15:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。