論文の概要: Optimal Decay Spectra for Linear Recurrences
- arxiv url: http://arxiv.org/abs/2604.07658v1
- Date: Wed, 08 Apr 2026 23:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.601722
- Title: Optimal Decay Spectra for Linear Recurrences
- Title(参考訳): 線形再帰に対する最適減衰スペクトル
- Authors: Yang Cao,
- Abstract要約: PoSTは任意の対角線再帰をオーバーヘッドなく統合する。
Mamba RWKV-7、Gated DeltaNet、Gated Linear Attention、RetNetでインスタンス化します。
- 参考スコア(独自算出の注目度): 6.508284558109273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear recurrent models offer linear-time sequence processing but often suffer from suboptimal long-range memory. We trace this to the decay spectrum: for $N$ channels, random initialization collapses the minimum spectral gap to $O(N^{-2})$, yielding sub-exponential error $\exp(-Ω(N/\log N))$; linear spacing avoids collapse but degrades to $\exp(-O(N/\sqrt{T}))$, practically algebraic over long contexts. We introduce Position-Adaptive Spectral Tapering (PoST), an architecture-agnostic framework combining two mechanisms: (1) Spectral Reparameterization, which structurally enforces geometrically spaced log-decay rates, proven minimax optimal at rate $O(\exp(-cN/\log T))$; and (2) Position-Adaptive Scaling, the provably unique mechanism that eliminates the scale mismatch of static spectra (where only $N\log t/\log T$ of $N$ channels are effective at position $t$) by stretching the spectrum to the actual dependency range, sharpening the rate to $O(\exp(-cN/\log t))$. This scaling natively induces fractional invariance: the impulse response becomes scale-free, with channels interpolating between relative and absolute temporal coordinates. PoST integrates into any diagonal linear recurrence without overhead. We instantiate it across Mamba-2, RWKV-7, Gated DeltaNet, Gated Linear Attention, and RetNet. Pre-training at 180M-440M scales shows consistent zero-shot language modeling improvements, significant long-context retrieval gains for Mamba-2 (MQAR and NIAH), and competitive or improved performance across other architectures. Code: https://github.com/SiLifen/PoST.
- Abstract(参考訳): リニアリカレントモデルは線形時間シーケンス処理を提供するが、しばしば最適でない長距離メモリに悩まされる。
N$チャネルの場合、ランダム初期化は最小スペクトルギャップを$O(N^{-2})$に崩壊させ、サブ指数誤差を$\exp(-Ω(N/\log N))$にする; 線形スペーシングは崩壊を避けるが、$\exp(-O(N/\sqrt{T})$に分解する。
幾何空間の対数遅延率を構造的に強制するスペクトルパラメータ化(Spectral Reparameterization)と、$O(\exp(-cN/\log T))$; (2) position-Adaptive Scaling(位置適応スケーリング)は、静的スペクトルのスケールミスマッチを排除し($N\log t/\log T$が$t$のみである場合)、スペクトルを実際の依存範囲まで広げて、$O(\exp(-cN/\log t)$にシャープする。
インパルス応答はスケールフリーとなり、チャネルは相対座標と絶対座標を補間する。
PoSTは任意の対角線再帰をオーバーヘッドなく統合する。
Mamba-2、RWKV-7、Gated DeltaNet、Gated Linear Attention、RetNetでインスタンス化します。
180M-440Mスケールでの事前トレーニングでは、一貫したゼロショット言語モデリングの改善、Mamba-2(MQARとNIAH)の長いコンテキスト検索の大幅な向上、他のアーキテクチャ間の競合やパフォーマンスの向上が示されている。
コード:https://github.com/SiLifen/PoST。
関連論文リスト
- Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Fundamental limits of over-the-air optimization: Are analog schemes
optimal? [23.71982686172067]
その結果,SNR の低値に対して$sqrtd$ の係数で収束速度が低下することがわかった。
注目すべきは、$Amplitude$$Shift$$Keying$を使用し、ほぼすべてのSNRにおける最適収束率を達成する単純な量子化・変調スキームを示すことである。
論文 参考訳(メタデータ) (2021-09-11T08:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。