論文の概要: A Systematic Analysis of Hybrid Linear Attention
- arxiv url: http://arxiv.org/abs/2507.06457v1
- Date: Tue, 08 Jul 2025 23:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.421504
- Title: A Systematic Analysis of Hybrid Linear Attention
- Title(参考訳): ハイブリッド線形注意の系統解析
- Authors: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian,
- Abstract要約: リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
- 参考スコア(独自算出の注目度): 11.722015123070957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers face quadratic complexity and memory issues with long sequences, prompting the adoption of linear attention mechanisms using fixed-size hidden states. However, linear models often suffer from limited recall performance, leading to hybrid architectures that combine linear and full attention layers. Despite extensive hybrid architecture research, the choice of linear attention component has not been deeply explored. We systematically evaluate various linear attention models across generations - vector recurrences to advanced gating mechanisms - both standalone and hybridized. To enable this comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six linear attention variants across five hybridization ratios. Benchmarking on standard language modeling and recall tasks reveals that superior standalone linear models do not necessarily excel in hybrids. While language modeling remains stable across linear-to-full attention ratios, recall significantly improves with increased full attention layers, particularly below a 3:1 ratio. Our study highlights selective gating, hierarchical recurrence, and controlled forgetting as critical for effective hybrid models. We recommend architectures such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1 to achieve Transformer-level recall efficiently. Our models are open-sourced at https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
- Abstract(参考訳): トランスフォーマーは、長いシーケンスで二次的な複雑さとメモリの問題に直面し、固定サイズの隠蔽状態を用いた線形アテンション機構を採用する。
しかし、リニアモデルはリコール性能の限界に悩まされ、リニア層とフルアテンション層を組み合わせたハイブリッドアーキテクチャに繋がる。
大規模なハイブリッドアーキテクチャの研究にもかかわらず、線形注意要素の選択は深く研究されていない。
我々は, ベクトル再帰から高度なゲーティング機構, スタンドアローンとハイブリダイズの両方において, 世代ごとの様々な線形アテンションモデルを体系的に評価した。
この包括的分析を可能にするために、我々は72のモデルをトレーニングし、オープンソース化した。36は340Mパラメータ(20Bトークン)、36は1.3Bパラメータ(100Bトークン)で、5つのハイブリダイゼーション比の6つの線形注意変動をカバーする。
標準言語モデリングとリコールタスクのベンチマークにより、優れたスタンドアロン線形モデルは必ずしもハイブリッドで優れているとは限らないことが分かる。
言語モデリングは、線形対フルアテンション比で安定しているが、特に3:1の比率未満のフルアテンション層の増加により、リコールは大幅に改善される。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
トランスフォーマーレベルのリコールを効率的に行うために,HGRN-2 や GatedDeltaNet などのアーキテクチャを 3:1 と 6:1 の線形対フル比で推奨する。
私たちのモデルはhttps://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1eでオープンソース化されています。
関連論文リスト
- Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - HyMamba: Mamba with Hybrid Geometry-Feature Coupling for Efficient Point Cloud Classification [7.139631485661567]
Geometry-Feature Coupled Pooling (GFCP)は局所的な特徴に隣接する幾何学的情報を動的に集約する。
提案したモデルは,特にModelNet40データセットにおいて,精度が95.99%に向上し,0.03Mの追加パラメータが得られた。さらに,ModelNetShotデータセットでは98.9%の精度を実現し,スパースサンプル下での堅牢な一般化能力を検証している。
論文 参考訳(メタデータ) (2025-05-16T10:30:20Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。