論文の概要: Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods
- arxiv url: http://arxiv.org/abs/2510.05901v2
- Date: Fri, 10 Oct 2025 17:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.695232
- Title: Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods
- Title(参考訳): ハイブリッド線形アテンション変換法におけるアンタングリング成分の不均衡
- Authors: Martin Benfeghoul, Teresa Delgado, Adnan Oomerjee, Haitham Bou Ammar, Jun Wang, Zafeirios Fountas,
- Abstract要約: 学習後線形化法は, 事前学習した変換器を線形モデルに効率的に変換する。
既存のハイブリッドメソッドは、必然的に線形成分をバイパスする。
バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
- 参考スコア(独自算出の注目度): 14.82822709954587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers' quadratic computational complexity limits their scalability despite remarkable performance. While linear attention reduces this to linear complexity, pre-training such models from scratch remains, in most cases, prohibitively expensive. Recent post-training linearisation methods convert pre-trained Transformers to linear models efficiently, often using hybrid approaches that combine linear attention with sliding-window softmax. We identify a critical flaw: existing hybrid methods inadvertently bypass the linear component, relying almost entirely on SWA. Component-level diagnostics reveal this previously undetected behaviour stems from overlooked evaluation practices on common-sense benchmarks. We propose three solutions to ensure balanced component usage: (i) inference-time hybridisation of linear-only conversions with sliding-window softmax; (ii) HedgeCATs, combining attention-weight transfer with targeted LoRA fine-tuning; and (iii) Scheduled Sliding-window Dropout (SSD), which stochastically suppresses the softmax branch during training to prevent component collapse. Our methods maintain computational efficiency while recovering most base model performance and ensuring genuine linear attention adoption, restoring the validity of performance attributions in hybrid conversions.
- Abstract(参考訳): トランスフォーマーの2次計算複雑性は、顕著な性能にもかかわらずスケーラビリティを制限する。
線形注意は、これを線形複雑性に還元するが、そのようなモデルをスクラッチから事前訓練することは、多くの場合、違法に高価である。
近年の訓練後線形化法は, 線形アテンションとスライドウインドウのソフトマックスを組み合わせたハイブリッドアプローチを用いて, 事前学習したトランスフォーマーを線形モデルに効率的に変換する。
既存のハイブリッドメソッドは、ほとんど完全にSWAに依存して、リニアコンポーネントを不注意にバイパスします。
コンポーネントレベルの診断は、これまで検出されていなかった振る舞いが、常識的なベンチマークで見過ごされた評価プラクティスに由来することを示している。
バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
(i)スライディングウインドウソフトマックスを用いた線形のみ変換の推論時ハイブリッド化
2HedgeCATs : 注目度移動とLoRA微調整の併用
三 トレーニング中にソフトマックス分岐を確率的に抑制し、部品の崩壊を防止するためのスケジューリングスライディング・ウインドウ・ドロップアウト(SSD)。
提案手法は,ほとんどの基本モデルの性能を回復しながら計算効率を保ち,真の線形アテンションの導入を保証し,ハイブリッド変換における性能属性の有効性を回復させる。
関連論文リスト
- POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation [57.57816409869894]
大規模言語モデルをトレーニングするためのスケーラブルでメモリ効率のよい変種であるPOET-Xを紹介する。
PoET-Xは、スループットとメモリ効率を大幅に改善しながら、PoETの一般化と安定性の利点を維持している。
論文 参考訳(メタデータ) (2026-03-05T18:59:23Z) - GPU-friendly and Linearly Convergent First-order Methods for Certifying Optimal $k$-sparse GLMs [7.079949618914198]
ブランチ・アンド・バウンド(BnB)フレームワークは、パースペクティブ・リラクゼーションを使って最適性を証明できる。
これらの緩和を解く既存の手法は計算集約的であり、スケーラビリティを制限している。
我々は線形収束性と計算効率の両立した近位フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-01T22:26:09Z) - Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction [3.9660062354591754]
トランスフォーマーアーキテクチャは、密度の高いフルアテンションによって最先端の精度を提供するが、その2次時間とメモリの複雑さは、実用的なデプロイメントを制限している。
線形アテンションメカニズムは、線形またはニア線形スケーリングを提供するが、しばしば性能劣化を引き起こす。
我々は,対象タスクの検証性能を監視しながら,すべての注意ブロックを線形に置き換える,欲求層置換戦略を導入する。
これにより、コストのかかる再トレーニングやニューラルアーキテクチャ検索を必要とせず、単一の効率的なパスでタスク固有のハイブリッドモデルが得られ、さまざまな下流タスクのために事前トレーニングされたフルアテンションバックボーンに適用できる。
論文 参考訳(メタデータ) (2026-01-16T02:01:40Z) - Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers [27.14203097630326]
本稿では、遅延空間遷移演算子を導入し、ドリフト補償を用いた逐次学習を提案する。
SLDCは、ドリフトの影響を軽減するために、タスク間で機能の分散を調整することを目的としている。
標準CILベンチマークの実験では、SLDCはSeqFTの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-11-13T03:40:54Z) - A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency [37.02934235737917]
統計的自由度の概念を用いて線形注意における特徴次元を決定するための原理的手法を提案する。
本手法は, 計算予算の固定化により, 誤差が小さくなることを示す。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-07-04T06:59:17Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。
埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。
我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文 参考訳(メタデータ) (2025-05-21T15:12:34Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Robust optimization for adversarial learning with finite sample complexity guarantees [1.8434042562191815]
本稿では,線形・非線形な分類問題に着目し,ロバストな分類器に対する新しい逆学習法を提案する。
データ駆動型レンズの下ではロバスト性があり、線形および非線形の分類器の2進および複数クラスシナリオにおける有限標本複雑性境界を導出する。
線形および非線形モデルに対する線形計画法 (LP) と2次コーン計画法 (SOCP) を用いて, 最悪のサロゲート損失を最小限に抑えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-22T13:49:53Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。