論文の概要: Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency
- arxiv url: http://arxiv.org/abs/2507.03340v1
- Date: Fri, 04 Jul 2025 06:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.695346
- Title: Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency
- Title(参考訳): リニアアテンションの自由度:最適な特徴効率でソフトマックスアテンションを蒸留する
- Authors: Naoki Nishikawa, Rei Higuchi, Taiji Suzuki,
- Abstract要約: 統計的自由度の概念を用いて線形注意における特徴次元を決定するための原理的手法を提案する。
本手法は, 計算予算の固定化により, 誤差が小さくなることを示す。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
- 参考スコア(独自算出の注目度): 37.02934235737917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention has attracted interest as a computationally efficient approximation to softmax attention, especially for long sequences. Recent studies have explored distilling softmax attention in pre-trained Transformers into linear attention. However, a critical challenge remains: how to choose the feature dimension that governs the approximation quality. Existing methods fix this dimension uniformly across all attention layers, overlooking the diverse roles and complexities of them. In this paper, we propose a principled method to automatically determine the feature dimension in linear attention using the concept of statistical degrees of freedom, which represent the effective dimensionality of the inputs. We provide a theoretical bound on the approximation error and show that the dimension chosen by our method achieves smaller error under a fixed computational budget. Furthermore, we introduce an efficient layerwise training strategy to learn nonlinear features tailored to each layer. Experiments on multiple pre-trained transformers demonstrate that our method improves the performance of distilled models compared to baselines without increasing the inference cost. Our findings also provide insight into how the complexity of the attention mechanism evolves across layers.
- Abstract(参考訳): 線形アテンションは、特に長いシーケンスにおいて、ソフトマックスアテンションに対する計算的に効率的な近似として関心を集めている。
近年, 事前学習した変圧器の軟弱注意を線形注意に蒸留する方法が研究されている。
しかし、重要な課題は、近似品質を管理する特徴次元をどのように選ぶかである。
既存の手法はこの次元をすべての注意層に均一に固定し、それらの様々な役割と複雑さを見下ろしている。
本稿では,入力の有効次元を表す統計的自由度の概念を用いて,線形注意における特徴次元を自動的に決定する原理的手法を提案する。
近似誤差に理論的拘束力を与え, 固定された計算予算の下で, 提案手法で選択した寸法がより小さい誤差となることを示す。
さらに,各層に適合する非線形特徴を学習するために,効率的なレイヤワイドトレーニング戦略を導入する。
複数の事前学習型変圧器の実験により, 提案手法は, 推定コストを増大させることなく, ベースラインと比較して蒸留モデルの性能を向上することを示した。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - ESPFormer: Doubly-Stochastic Attention with Expected Sliced Transport Plans [13.695885742446027]
自己注意は、トレーニング中にいくつかのトークンを過度に集中させ、その結果、準最適情報フローをもたらす可能性がある。
我々は,スライスされた最適輸送に基づく,新しい並列化可能な二重確率的アテンション機構を提案する。
本手法はシンクホーンの正規化を繰り返すことなく二重性を強制し,効率を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-11T21:20:48Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。
彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。
本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T04:35:56Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。