論文の概要: Elucidating the Design Space of Decay in Linear Attention
- arxiv url: http://arxiv.org/abs/2509.05282v1
- Date: Fri, 05 Sep 2025 17:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.673886
- Title: Elucidating the Design Space of Decay in Linear Attention
- Title(参考訳): リニアアテンションにおけるデカイ設計空間の解明
- Authors: Zhen Qin, Xuyang Shen, Yiran Zhong,
- Abstract要約: 本稿では, 4次元にわたる崩壊機構の設計空間を体系的に記述する。
崩壊のためのパラメータ化戦略の設計には精巧な考慮が必要である。
Rotary Position Embedding (RoPE) のような相対的な位置符号化法は、典型的には具体的な利点を提供することができない。
- 参考スコア(独自算出の注目度): 24.298023566061758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive investigation into the decay mechanisms inherent in linear complexity sequence models. We systematically delineate the design space of decay mechanisms across four pivotal dimensions: parameterization strategy, which refers to the computational methodology for decay; parameter sharing, which involves the utilization of supplementary parameters for decay computation; decay granularity, comparing scalar versus vector-based decay; and compatibility with relative positional encoding methods, such as Rotary Position Embedding (RoPE). Through an extensive series of experiments conducted on diverse language modeling tasks, we uncovered several critical insights. Firstly, the design of the parameterization strategy for decay requires meticulous consideration. Our findings indicate that effective configurations are typically confined to a specific range of parameters. Secondly, parameter sharing cannot be used arbitrarily, as it may cause decay values to be too large or too small, thereby significantly impacting performance. Thirdly, under identical parameterization strategies, scalar decay generally underperforms compared to its vector-based counterpart. However, in certain scenarios with alternative parameterization strategies, scalar decay may unexpectedly surpass vector decay in efficacy. Lastly, our analysis reveals that RoPE, a commonly employed relative positional encoding method, typically fails to provide tangible benefits to the majority of linear attention mechanisms.
- Abstract(参考訳): 本稿では,線形複雑系列モデルに固有の崩壊機構を包括的に検討する。
本研究では, 崩壊の計算手法を参照するパラメータ化戦略, 崩壊計算のための補助パラメータの利用を含むパラメータ共有, スカラーとベクトルベースの崩壊を比較した崩壊粒度, ロータリー位置埋め込み(RoPE)のような相対的な位置符号化手法との整合性を示す。
多様な言語モデリングタスクに関する広範な実験を通じて、我々はいくつかの重要な洞察を明らかにした。
第一に、崩壊のためのパラメータ化戦略の設計は慎重に検討する必要がある。
この結果から, 有効構成は通常, 特定のパラメータに限られていることが明らかとなった。
第二に、パラメータ共有は、減衰値が大きすぎるか小きすぎる可能性があるため、任意に使用できないため、性能に大きな影響を及ぼす。
第三に、同一のパラメータ化戦略の下では、スカラー崩壊は一般にベクトルベースのものと比べ過小評価される。
しかし、代替パラメータ化戦略を持つ特定のシナリオでは、スカラー崩壊は予想外の有効性におけるベクトル減衰を超越する可能性がある。
最後に,一般に使用される相対的位置符号化法であるRoPEが,線形注意機構の大部分に有意なメリットを得られないことを明らかにする。
関連論文リスト
- Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - Stochastic Parameter Decomposition [4.033166813570093]
リバースエンジニアリングニューラルネットワークにおける重要なステップは、それらを比較的孤立して研究できるより単純な部分に分解することだ。
このフレームワークの現在の主要なメソッドは、属性ベースである。
分解(APD)は計算コストのため実用的ではない。
textitStochasticを導入します。
分解(SPD)は、よりスケーラブルで堅牢な方法である。
論文 参考訳(メタデータ) (2025-06-25T19:26:31Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Optimal statistical inference in the presence of systematic
uncertainties using neural network optimization based on binned Poisson
likelihoods with nuisance parameters [0.0]
本研究は,特徴工学のためのニューラルネットワークによる次元削減を構築するための新しい戦略を提案する。
提案手法は, 最適に近い利害関係のパラメータを推定する方法について議論する。
論文 参考訳(メタデータ) (2020-03-16T13:27:18Z) - Double/Debiased Machine Learning for Dynamic Treatment Effects via
g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。
本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-17T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。