論文の概要: Enhancing Linear Attention with Residual Learning
- arxiv url: http://arxiv.org/abs/2509.25223v1
- Date: Wed, 24 Sep 2025 07:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.177678
- Title: Enhancing Linear Attention with Residual Learning
- Title(参考訳): 残差学習によるリニアアテンションの強化
- Authors: Xunhao Lai, Jialiang Kang, Jianqiao Lu, Tong Lin, Pengyu Zhao,
- Abstract要約: 本稿では,線形注意に明示的な残差適合機構を付加するフレームワークであるResidual Linear Attention (RLA)を紹介する。
RLAは、残差を時間の経過とともに蓄積し、ベース予測を修正することを学ぶ補助的なリカレント状態を維持している。
さらにデルタルール版であるResidual Delta Net (RDN) のインスタンス化を行い、適応的ゲーティングと残留クリッピングを導入し、補正制御と安定性を向上させた。
- 参考スコア(独自算出の注目度): 8.771004029038403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear attention offers a linear-time alternative to self-attention but often struggles to capture long-range patterns. We revisit linear attention through a prediction-correction lens and show that prevalent variants can be written as a combination of a historical prediction and a single-token correction, which creates an expressivity bottleneck. To address this bottleneck, we introduce Residual Linear Attention (RLA), a framework that equips linear attention with an explicit residual-fitting mechanism. RLA maintains an auxiliary recurrent state that learns to accumulate residual errors over time and correct the base prediction. We further instantiate a delta-rule version, Residual Delta Net (RDN), incorporating adaptive gating and residual clipping for enhanced correction control and stability. Our implementation leverages highly optimized linear attention kernels and preserves linear time and memory. Across language modeling and recall-intensive evaluations, RLA and RDN consistently outperform their respective baselines and other modern linear-attention methods, narrowing the gap to standard Transformers while retaining linear scaling.
- Abstract(参考訳): 線形注意は自己注意に代わる線形時間を提供するが、しばしば長距離パターンを捉えるのに苦労する。
我々は、予測補正レンズを通して線形注意を再考し、有意な変種を歴史的予測と一点補正の組み合わせとして記述し、表現性ボトルネックを生じさせることを示す。
このボトルネックに対処するために、線形注意を明示的な残差適合機構に装備するフレームワークであるResidual Linear Attention (RLA)を導入する。
RLAは、残差を時間の経過とともに蓄積し、ベース予測を修正することを学ぶ補助的なリカレント状態を維持している。
さらにデルタルール版であるResidual Delta Net (RDN) のインスタンス化を行い、適応的ゲーティングと残留クリッピングを導入し、補正制御と安定性を向上させた。
我々の実装は高度に最適化された線形アテンションカーネルを活用し、線形時間とメモリを保存する。
RLAとRDNは言語モデリングとリコール集約評価全体にわたって、それぞれのベースラインやその他の現代的なリニアアテンション手法を一貫して上回り、リニアスケーリングを維持しながら標準トランスフォーマーとのギャップを狭めている。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Causality-aware counterfactual confounding adjustment as an alternative
to linear residualization in anticausal prediction tasks based on linear
learners [14.554818659491644]
反因果予測タスクにおける因果関係を考慮した共起調整に対する線形残差化手法の比較を行った。
線形学習者の予測性能において,因果認識アプローチは(漸近的に)残留化調整に優れる傾向があることを示す。
論文 参考訳(メタデータ) (2020-11-09T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。