論文の概要: Parallax: Parameterized Local Linear Attention for Language Modeling
- arxiv url: http://arxiv.org/abs/2605.29157v1
- Date: Wed, 27 May 2026 22:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.54918
- Title: Parallax: Parameterized Local Linear Attention for Language Modeling
- Title(参考訳): Parallax: 言語モデリングのためのパラメータ化された局所線形注意
- Authors: Yifei Zuo, Dhruv Pai, Zhichen Zeng, Alec Dewulf, Shuming Hu, Zhaoran Wang,
- Abstract要約: 大規模言語モデル(LLM)にスケーラブルなパラメータ化ローカル線形注意法であるParallaxを導入する。
パララックスは、帯域幅、プローブ構成、アフィン構造によって接続される注意機構のファミリーに配置する。
プロトタイプのデコードカーネルは、さまざまなバッチサイズとコンテキストの長さで、FlashAttention 2/3にマッチするか、より優れています。
- 参考スコア(独自算出の注目度): 19.36455749398556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の中心パラダイムとなっているが、中心となる計算プリミティブは構造的に変化していない。
局所線形注意(Local Linear Attention, LLA)は、テスト時間回帰フレームワークにおける非パラメトリック統計から導出される注意機構である。
効率的な注意変動に関する以前の研究とは対照的に、LLAはソフトマックスの注意における局所定数推定を局所線形推定にアップグレードし、連想記憶に対するバイアス分散トレードオフが著しく優れている。
しかし、LLAは計算的および数値的安定性の懸念から、LLM事前訓練ではスケールしていない。
LLMにスケーラブルなパラメータ化ローカルリニアアテンションであるParallaxを紹介する。
パララックスはLAの数値解法を排除し、KV共分散を探索する余分なクエリライクなプロジェクタを学ぶ。
パララックスは、帯域幅、プローブ構成、アフィン構造によって接続される注意機構のファミリーに配置する。
本稿では,FlashAttentionよりも演算強度を向上し,より計算バウンドな状態に注意を移すハードウェア認識アルゴリズムを提案する。
プロトタイプのデコードカーネルは、さまざまなバッチサイズとコンテキストの長さで、FlashAttention 2/3にマッチするか、より優れています。
私たちはParallaxを0.6Bと1.7Bのスケールでプレトレーニングし、ダウンストリームベンチマークに転送するゲインと事前トレーニングを通して一貫したパープレキシティ改善を見つけます。
この利点はパラメータマッチングと計算マッチングの両方のコントロールで持続し、Paretoの改善を示す。
我々は注意深い事前訓練を行い、ムーンがパララックスの能力を解き放つ現象を特定する。
私たちの知る限り、これはアーキテクチャ研究文献における注意機構のための強力なアーキテクチャ最適化符号の実証的な最初の例である。
関連論文リスト
- PALoRA: Projection-Adaptive LoRA for Preserving Reasoning in Large Language Models [11.396379339626122]
推論に必要な情報は、支配的な特異方向のみに局所化されるのではなく、代わりに特異スペクトルに分散されることを示す。
干渉を低減した知識注入のための2段階フレームワークであるPALoRAを紹介する。
論文 参考訳(メタデータ) (2026-05-23T12:34:08Z) - Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction [16.426476430697587]
本稿では,ボトルネックトランスフォーマアーキテクチャを用いて,STOI(Short-Time Objective Intelligibility)メトリクスを予測する新しい手法を提案する。
両シナリオの相関性は高く,平均2乗誤差は低かった。
論文 参考訳(メタデータ) (2026-02-17T10:46:54Z) - RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文 参考訳(メタデータ) (2026-02-12T03:02:22Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - ShishuLM: Lightweight Language Model with Hybrid Decoder-MLP Architecture and Paired Weight Sharing [0.5565728870245015]
本稿では,パラメータカウントとキーバリュー(KV)キャッシュ要求の両方を削減できる,効率的な言語モデルアーキテクチャであるShishuLMを紹介した。
以上の結果から,ShshuLMは最大25%のメモリ要求を削減し,トレーニングと推論の両方で最大40%のレイテンシ向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-13T04:04:54Z) - Local Linear Attention: An Optimal Interpolation of Linear and Softmax Attention For Test-Time Regression [35.16407520369906]
局所線形注意(Local Linear Attention)は、テスト時間回帰のレンズを通して非パラメトリック統計から導出される新しい注意機構である。
ハードウェア効率のよいブロックワイズアルゴリズムであるFlashLLAを導入し、現代のアクセラレータ上でスケーラブルで並列な計算を可能にする。
実験の結果,LLAは非定常性に効果的に適応し,テスト時間トレーニングやコンテキスト内学習において強いベースラインを達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-01T20:42:21Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。