論文の概要: LUNA: Linear Universal Neural Attention with Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2512.08061v1
- Date: Mon, 08 Dec 2025 21:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.732859
- Title: LUNA: Linear Universal Neural Attention with Generalization Guarantees
- Title(参考訳): LUNA: 一般化保証付き線形ユニバーサルニューラルアテンション
- Authors: Ashkan Shahbazi, Ping He, Ali Abbasi, Yikun Bai, Xinran Liu, Elaheh Akbari, Darian Salehi, Navid NaderiAlizadeh, Soheil Kolouri,
- Abstract要約: textscLunaは、計算パリティの下で効率的なトランスフォーマーの間で最先端の平均精度を達成する。
textscLunaはポストホック変換にも優れており、細調整されたBERTとViT-B/16チェックポイントでソフトマックスを置き換える。
- 参考スコア(独自算出の注目度): 27.74721677870656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling attention faces a critical bottleneck: the $\mathcal{O}(n^2)$ quadratic computational cost of softmax attention, which limits its application in long-sequence domains. While linear attention mechanisms reduce this cost to $\mathcal{O}(n)$, they typically rely on fixed random feature maps, such as random Fourier features or hand-crafted functions. This reliance on static, data-agnostic kernels creates a fundamental trade-off, forcing practitioners to sacrifice significant model accuracy for computational efficiency. We introduce \textsc{LUNA}, a kernelized linear attention mechanism that eliminates this trade-off, retaining linear cost while matching and surpassing the accuracy of quadratic attention. \textsc{LUNA} is built on the key insight that the kernel feature map itself should be learned rather than fixed a priori. By parameterizing the kernel, \textsc{LUNA} learns a feature basis tailored to the specific data and task, overcoming the expressive limitations of fixed-feature methods. \textsc{Luna} implements this with a learnable feature map that induces a positive-definite kernel and admits a streaming form, yielding linear time and memory scaling in the sequence length. Empirical evaluations validate our approach across diverse settings. On the Long Range Arena (LRA), \textsc{Luna} achieves state-of-the-art average accuracy among efficient Transformers under compute parity, using the same parameter count, training steps, and approximate FLOPs. \textsc{Luna} also excels at post-hoc conversion: replacing softmax in fine-tuned BERT and ViT-B/16 checkpoints and briefly fine-tuning recovers most of the original performance, substantially outperforming fixed linearizations.
- Abstract(参考訳): $\mathcal{O}(n^2)$ quadratic compute cost of softmax attention, which is limited its application in long-sequence domain。
線形注意機構は、このコストを$\mathcal{O}(n)$に削減するが、通常はランダムなフーリエ特徴や手作り関数のような固定されたランダムな特徴写像に依存する。
この静的でデータに依存しないカーネルへの依存は、基本的なトレードオフを生み出し、実践者は計算効率のために重要なモデルの精度を犠牲にする。
本稿では,このトレードオフを解消し,2次注意の精度を上回りながら線形コストを維持する,カーネル化された線形注意機構である「textsc{LUNA}」を紹介する。
\textsc{LUNA} は、カーネルのフィーチャーマップ自体が優先順位を固定するのではなく、学習されるべきであるというキーインサイトの上に構築されている。
カーネルのパラメータ化によって、 \textsc{LUNA} は特定のデータやタスクに適した機能基底を学習し、固定機能メソッドの表現的制限を克服する。
\textsc{Luna} は、正定値のカーネルを誘導し、ストリーミング形式を認め、シーケンス長の線形時間とメモリスケーリングをもたらす学習可能な機能マップでこれを実装している。
経験的評価は、さまざまな設定にまたがってアプローチを検証する。
LRA(Long Range Arena)では,計算パリティの下での効率的なトランスフォーマーの最先端平均精度を,同じパラメータ数,トレーニングステップ,近似FLOPを用いて達成する。
細調整されたBERT と ViT-B/16 のチェックポイントをソフトマックスに置き換え、短時間の微調整で元の性能のほとんどを回復し、固定線形化を大幅に上回る。
関連論文リスト
- Rethinking Transformer Connectivity: TLinFormer, A Path to Exact, Full Context-Aware Linear Attention [0.0]
本稿では,新しいリニアアテンションアーキテクチャ-textbfTLinFormerを提案する。
ニューロン接続パターンを再構成することにより、TLinFormerは正確な注意スコアを計算しながら厳密な線形複雑性を実現する。
TLinFormerは,textbfinference遅延, textbfKVキャッシュ効率, textbfMemoryフットプリントといった重要な指標において,圧倒的な優位性を示すことを示す。
論文 参考訳(メタデータ) (2025-08-28T04:10:19Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:38:13Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - RFFNet: Large-Scale Interpretable Kernel Methods via Random Fourier Features [3.0079490585515347]
RFFNetは1次最適化によってカーネルの関連性をリアルタイムで学習するスケーラブルな手法である。
提案手法はメモリフットプリントが小さく,実行時,予測誤差が低く,関連する特徴を効果的に識別できることを示す。
私たちは、Scikit-learn標準APIと結果を完全に再現するためのコードに準拠した、効率的でPyTorchベースのライブラリをユーザに提供します。
論文 参考訳(メタデータ) (2022-11-11T18:50:34Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Fast Estimation of Information Theoretic Learning Descriptors using
Explicit Inner Product Spaces [4.5497405861975935]
カーネル法は、信号処理や機械学習における非線形問題を解くため、理論的に座屈し、強力で汎用的な枠組みを形成する。
近年, NTカーネル適応フィルタ (KAF) を提案する。
我々は,内部積空間カーネルを用いたIPLの高速,スケーラブル,高精度な推定器群に着目した。
論文 参考訳(メタデータ) (2020-01-01T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。