論文の概要: OSDN: Improving Delta Rule with Provable Online Preconditioning in Linear Attention
- arxiv url: http://arxiv.org/abs/2605.13473v1
- Date: Wed, 13 May 2026 12:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.056826
- Title: OSDN: Improving Delta Rule with Provable Online Preconditioning in Linear Attention
- Title(参考訳): OSDN: オンラインプレコンディショニングが可能なリニアアテンションによるデルタルールの改善
- Authors: Chenyu Zhou, Hongpei Li, Yuerou Liu, Jianghao Lin, Dongdong Ge, Yinyu Ye,
- Abstract要約: Online Scaled DeltaNetは、JRTスタイルのインコンテキストリコールをDeltaNetよりも32%改善した。
1.3Bパラメータにスケーリングすると、リコール残差比が39%減少する。
- 参考スコア(独自算出の注目度): 12.93065958346192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear attention and state-space models offer constant-memory alternatives to softmax attention, but often struggle with in-context associative recall. The Delta Rule mitigates this by writing each token via one step of online gradient descent. However, its step size relies on a single scalar gate that ignores the feature-wise curvature of the inner objective. We propose Online Scaled DeltaNet (OSDN), which augments the scalar gate with a diagonal preconditioner updated online via hypergradient feedback. Crucially, this right-preconditioning is algebraically equivalent to a per-feature scaling of the write-side key. This equivalence allows OSDN to strictly preserve the hardware-friendly chunkwise parallel pipeline of DeltaNet without incurring high-dimensional state overhead. Theoretically, by exploiting the exact-quadratic structure of the inner regression loss, we establish super-geometric convergence against a right-Newton comparator and prove an algorithm-aligned token-local residual contraction bound. To handle non-stationary contexts, we further introduce Adaptive Preconditioner Forgetting (APF) to dynamically refresh stale calibration. Empirically, OSDN demonstrates strong performance across scales. At the 340M-parameter scale, OSDN improves JRT-style in-context recall by 32% over DeltaNet. Scaling to 1.3B parameters, it achieves a 39% reduction in the recall residual ratio while maintaining parity on general downstream tasks (e.g., perplexity and LongBench) -- demonstrating that our online-preconditioning mechanism effectively transfers and amplifies at the billion-parameter scale.
- Abstract(参考訳): 線形アテンションと状態空間モデルは、ソフトマックスアテンションの代替として一定メモリを提供するが、しばしばコンテキスト内連想リコールに悩まされる。
Delta Ruleは、各トークンをオンライン勾配の1ステップで記述することで、これを緩和する。
しかし、そのステップサイズは1つのスカラーゲートに依存しており、内部の目的の特徴的曲率を無視している。
我々は,オンラインスケールドデルタネット (OSDN) を提案する。これはスカラーゲートを強化し,高次フィードバックによってオンラインに更新される対角プレコンディショナーを備える。
重要なことに、この右プレコンディショニングは、書き込み側キーの関数単位のスケーリングと代数的に等価である。
この等価性により、OSDNはDeltaNetのハードウェアフレンドリーなチャンクワイド並列パイプラインを高次元のオーバーヘッドを発生させることなく厳密に保持することができる。
理論的には、内部回帰損失の正確な2次構造を利用して、右ニュートンコンパレータに対する超幾何収束を確立し、アルゴリズムに整合したトークン局所残留収縮境界を証明する。
非定常文脈を扱うために、我々はさらに適応プレコンディショナー・フォーッティング(APF)を導入し、安定化校正を動的にリフレッシュする。
経験的に、OSDNはスケールにわたって強力なパフォーマンスを示している。
340Mパラメータスケールでは、OSDNはJRTスタイルのインコンテキストリコールをDeltaNetよりも32%改善している。
1.3Bパラメータにスケールすると、一般的な下流タスク(例えば、パープレキシティやLongBench)のパリティを維持しながら、リコール残余率を39%削減できます。
関連論文リスト
- Kaczmarz Linear Attention [11.650692583508663]
リニアリカレントモデルはコンテキストを固定サイズの状態に圧縮し、情報を忘れ、書き、編集するルールを中心的な設計問題とする。
Gated DeltaNet (GDN) は、ゲート状態崩壊とデルタルール残差書き込みを結合し、学習可能な係数を用いて、忘れと更新の規模をバランスさせる。
状態形状,ゲート,リニアリカレンス,チャンクワイズ並列アルゴリズムを保存するGDNの1スカラー修正であるKaczmarz Linear (KLA)を提案する。
論文 参考訳(メタデータ) (2026-05-09T01:07:01Z) - Channel-Level Relation to Attentive Aggregation with Neighborhood-Homogeneity Constraint for Point Cloud Analysis [14.63838637349137]
3Dポイントのクラウド理解では、複雑な地区内の差別的特徴を正確に捉えることが課題である。
既存の手法では特徴相関の識別を探索するが、点レベルの空間分布やチャネル応答に制限される。
本稿では,チャネルレベルのメートル法に基づく拡張機構を備えた新しいネットワークであるPointCRAを提案する。
論文 参考訳(メタデータ) (2026-05-04T08:59:36Z) - Preconditioned DeltaNet: Curvature-aware Sequence Modeling for Linear Recurrences [51.38664601405696]
我々はDeltaNet,GDN,KDAのプレコンディション付き変種を,効率的なチャンクワイズ並列アルゴリズムとともに導入する。
予備条件付きデルタルールの繰り返しは,340M,1Bスケールでの合成リコールベンチマークと言語モデリングにおいて一貫した性能向上をもたらす。
論文 参考訳(メタデータ) (2026-04-22T21:38:25Z) - BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" [0.0]
正確なバックプロパゲーションに必要な活性化メモリは、ネットワーク深さ、コンテキスト長、特徴次元と線形にスケールする。
本稿では,活性化メモリをバッチ次元とシーケンス次元から完全に分離する効率的なバックプロパゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-05T20:38:25Z) - Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。
我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。
この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文 参考訳(メタデータ) (2026-01-01T18:11:38Z) - Comba: Improving Bilinear RNNs with Closed-loop Control [57.800320390698516]
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
論文 参考訳(メタデータ) (2025-06-03T05:44:50Z) - DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products [60.72655477351486]
リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、表現性と効率の基本的なトレードオフに直面しており、状態遷移行列の構造によって規定されている。
論文 参考訳(メタデータ) (2025-02-14T16:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。