論文の概要: Paying Attention to Hybrid Attention: Untangling the Issues with Conversion Methods
- arxiv url: http://arxiv.org/abs/2510.05901v1
- Date: Tue, 07 Oct 2025 13:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.26346
- Title: Paying Attention to Hybrid Attention: Untangling the Issues with Conversion Methods
- Title(参考訳): ハイブリッドアテンションへの注意を払う - 変換手法による課題の解き方
- Authors: Martin Benfeghoul, Teresa Delgado, Adnan Oomerjee, Haitham Bou Ammar, Jun Wang, Zafeirios Fountas,
- Abstract要約: 学習後線形化法は, 事前学習した変換器を線形モデルに効率的に変換する。
既存のハイブリッドメソッドは、必然的に線形成分をバイパスする。
バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
- 参考スコア(独自算出の注目度): 14.82822709954587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers' quadratic computational complexity limits their scalability despite remarkable performance. While linear attention reduces this to linear complexity, pre-training such models from scratch remains, in most cases, prohibitively expensive. Recent post-training linearisation methods convert pre-trained Transformers to linear models efficiently, often using hybrid approaches that combine linear attention with sliding-window softmax. We identify a critical flaw: existing hybrid methods inadvertently bypass the linear component, relying almost entirely on SWA. Component-level diagnostics reveal this previously undetected behaviour stems from overlooked evaluation practices on common-sense benchmarks. We propose three solutions to ensure balanced component usage: (i) inference-time hybridisation of linear-only conversions with sliding-window softmax; (ii) HedgeCATs, combining attention-weight transfer with targeted LoRA fine-tuning; and (iii) Scheduled Sliding-window Dropout (SSD), which stochastically suppresses the softmax branch during training to prevent component collapse. Our methods maintain computational efficiency while recovering most base model performance and ensuring genuine linear attention adoption, restoring the validity of performance attributions in hybrid conversions.
- Abstract(参考訳): トランスフォーマーの2次計算複雑性は、顕著な性能にもかかわらずスケーラビリティを制限する。
線形注意は、これを線形複雑性に還元するが、そのようなモデルをスクラッチから事前訓練することは、多くの場合、違法に高価である。
近年の訓練後線形化法は, 線形アテンションとスライドウインドウのソフトマックスを組み合わせたハイブリッドアプローチを用いて, 事前学習したトランスフォーマーを線形モデルに効率的に変換する。
既存のハイブリッドメソッドは、ほとんど完全にSWAに依存して、リニアコンポーネントを不注意にバイパスします。
コンポーネントレベルの診断は、これまで検出されていなかった振る舞いが、常識的なベンチマークで見過ごされた評価プラクティスに由来することを示している。
バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
(i)スライディングウインドウソフトマックスを用いた線形のみ変換の推論時ハイブリッド化
2HedgeCATs : 注目度移動とLoRA微調整の併用
三 トレーニング中にソフトマックス分岐を確率的に抑制し、部品の崩壊を防止するためのスケジューリングスライディング・ウインドウ・ドロップアウト(SSD)。
提案手法は,ほとんどの基本モデルの性能を回復しながら計算効率を保ち,真の線形アテンションの導入を保証し,ハイブリッド変換における性能属性の有効性を回復させる。
関連論文リスト
- A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency [37.02934235737917]
統計的自由度の概念を用いて線形注意における特徴次元を決定するための原理的手法を提案する。
本手法は, 計算予算の固定化により, 誤差が小さくなることを示す。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-07-04T06:59:17Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。
埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。
我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文 参考訳(メタデータ) (2025-05-21T15:12:34Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Robust optimization for adversarial learning with finite sample complexity guarantees [1.8434042562191815]
本稿では,線形・非線形な分類問題に着目し,ロバストな分類器に対する新しい逆学習法を提案する。
データ駆動型レンズの下ではロバスト性があり、線形および非線形の分類器の2進および複数クラスシナリオにおける有限標本複雑性境界を導出する。
線形および非線形モデルに対する線形計画法 (LP) と2次コーン計画法 (SOCP) を用いて, 最悪のサロゲート損失を最小限に抑えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-22T13:49:53Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。