論文の概要: Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression
- arxiv url: http://arxiv.org/abs/2510.01450v1
- Date: Wed, 01 Oct 2025 20:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.864954
- Title: Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression
- Title(参考訳): 局所線形アテンション:テスト時間回帰に対する線形およびソフトマックスアテンションの最適補間
- Authors: Yifei Zuo, Yutong Yin, Zhichen Zeng, Ang Li, Banghua Zhu, Zhaoran Wang,
- Abstract要約: 局所線形注意(Local Linear Attention)は、テスト時間回帰のレンズを通して非パラメトリック統計から導出される新しい注意機構である。
ハードウェア効率のよいブロックワイズアルゴリズムであるFlashLLAを導入し、現代のアクセラレータ上でスケーラブルで並列な計算を可能にする。
実験の結果,LLAは非定常性に効果的に適応し,テスト時間トレーニングやコンテキスト内学習において強いベースラインを達成できることがわかった。
- 参考スコア(独自算出の注目度): 35.16407520369906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have achieved remarkable success in various domains. While efficient alternatives to Softmax Attention have been widely studied, the search for more expressive mechanisms grounded in theoretical insight-even at greater computational cost-has been relatively underexplored. In this work, we bridge this gap by proposing Local Linear Attention (LLA), a novel attention mechanism derived from nonparametric statistics through the lens of test-time regression. First, we show that LLA offers theoretical advantages over Linear and Softmax Attention for associative memory via a bias-variance trade-off analysis. Next, we address its computational challenges and propose two memory-efficient primitives to tackle the $\Theta(n^2 d)$ and $\Theta(n d^2)$ complexity. We then introduce FlashLLA, a hardware-efficient, blockwise algorithm that enables scalable and parallel computation on modern accelerators. In addition, we implement and profile a customized inference kernel that significantly reduces memory overheads. Finally, we empirically validate the advantages and limitations of LLA on test-time regression, in-context regression, associative recall and state tracking tasks. Experiment results demonstrate that LLA effectively adapts to non-stationarity, outperforming strong baselines in test-time training and in-context learning, and exhibiting promising evidence for its scalability and applicability in large-scale models. Code is available at https://github.com/Yifei-Zuo/Flash-LLA.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、様々な領域で顕著な成功を収めた。
ソフトマックス注意(Softmax Attention)の効率的な代替手段は広く研究されているが、理論的な洞察に基づくより表現力のあるメカニズムの探索は、より高い計算コストでも比較的過小評価されている。
本研究では、テスト時間回帰のレンズを通して、非パラメトリック統計から導かれる新しい注意機構であるLocal Linear Attention (LLA)を提案することにより、このギャップを埋める。
まず、LLAはバイアス分散トレードオフ分析による連想記憶に対する線形とソフトマックスの注意よりも理論的に有利であることを示す。
次に、その計算課題に対処し、$\Theta(n^2 d)$と$\Theta(n d^2)$複雑さに取り組むために、2つのメモリ効率の良いプリミティブを提案する。
次に、ハードウェア効率のよいブロックワイズアルゴリズムであるFlashLLAを導入し、現代のアクセラレータ上でスケーラブルで並列な計算を可能にした。
さらに、メモリオーバーヘッドを大幅に削減するカスタマイズされた推論カーネルを実装し、プロファイリングする。
最後に、テスト時間回帰、コンテキスト内回帰、連想リコール、状態追跡タスクにおけるLLAの利点と限界を実証的に検証する。
実験の結果、LLAは非定常性に効果的に適応し、テスト時間トレーニングやインコンテキスト学習において強力なベースラインを達成し、大規模モデルでそのスケーラビリティと適用性を示す有望な証拠を示すことが示された。
コードはhttps://github.com/Yifei-Zuo/Flash-LLA.comで入手できる。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文 参考訳(メタデータ) (2025-06-05T17:59:24Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - FAStEN: An Efficient Adaptive Method for Feature Selection and Estimation in High-Dimensional Functional Regressions [7.674715791336311]
本稿では,スパース関数オン・ファンクション回帰問題において特徴選択を行うための,新しい,柔軟な,超効率的なアプローチを提案する。
我々はそれをスカラー・オン・ファンクション・フレームワークに拡張する方法を示す。
AOMIC PIOP1による脳MRIデータへの応用について述べる。
論文 参考訳(メタデータ) (2023-03-26T19:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。