論文の概要: Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts
- arxiv url: http://arxiv.org/abs/2601.22156v1
- Date: Thu, 29 Jan 2026 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.111591
- Title: Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts
- Title(参考訳): ハイブリッドリニアアテンションが正しい: 極めて長いコンテキストに対する効率的な蒸留と効果的なアーキテクチャ
- Authors: Yingfa Chen, Zhen Leng Thai, Zihan Zhou, Zhu Zhang, Xingyu Shen, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu,
- Abstract要約: 本稿では,トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALOを提案する。
そこで,提案するHypeNetは,新しい位置符号化方式により,より優れた長さの一般化を実現したハイブリッドアーキテクチャである。
変換には2.3Bトークンしか必要とせず、事前トレーニングデータの0.01%以下である。
- 参考スコア(独自算出の注目度): 27.8245634187787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data
- Abstract(参考訳): ソフトマックスアテンションブロックとリカレントニューラルネットワーク(RNN)を組み合わせたハイブリッドトランスフォーマーアーキテクチャは、長期コンテキストモデリングに望ましいパフォーマンススループットトレードオフを示しているが、その採用と研究は、大規模な事前トレーニングをスクラッチから禁止するコストによって妨げられている。
近年の研究では、パラメータ転送と知識蒸留により、事前学習したソフトマックスアテンションブロックをRNNブロックに変換することが示されている。
しかし、これらのトランスファー手法は、かなりの量のトレーニングデータ(10Bトークン以上)を必要とするため、結果として得られたハイブリッドモデルは、長文のパフォーマンスも劣る。
本稿では、トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALO(Hybrid Attention via Layer Optimization)を提案する。
そこで,HypeNetを提案する。HypeNetは,新しい位置符号化方式(HyPE)と様々なアーキテクチャ変更により,より優れた長さの一般化を実現したハイブリッドアーキテクチャである。
我々は、Qwen3シリーズをHALOを用いてHypeNetに変換し、より優れた長文性能と効率を享受しながら、オリジナルのTransformerモデルに匹敵する性能を達成する。
変換には2.3Bトークンしか必要とせず、事前トレーニングデータの0.01%以下である。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - Native Hybrid Attention for Efficient Sequence Modeling [12.306252523159197]
ネイティブハイブリッドアテンション(NHA)は、線形およびフルアテンションの新たなハイブリッドアーキテクチャである。
単一のtextttsoftmaxアテンション操作は、すべてのキーと値に適用される。
実験結果から,NHAはリコール集約・コモンセンス推論タスクにおいてトランスフォーマーを上回ることがわかった。
論文 参考訳(メタデータ) (2025-10-08T13:44:57Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization [25.87557024380553]
本稿では,Pre-NormとPost-Normの利点を統合した,シンプルかつ効果的なハイブリッド正規化戦略を提案する。
大規模トランスモデルの実験では、HybridNormはPre-NormとPost-Normの両方のアプローチを一貫して上回っている。
これらの知見は、ディープトランスモデルのトレーニングと性能を改善するためのより安定的で効果的な手法として、HybridNormの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-06T16:40:48Z) - LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation [37.21518386315535]
長いコンテキストを扱うために言語モデルをスケールすることは、かなりのメモリ課題をもたらす。
LLaMAなどのモデルからハイブリッドなモデルに変換するLightTransferを提案する。
当社のアプローチでは,最近のトークンや初期トークンに注目した遅延レイヤを特定して,その全注目をストリーミングの注目に置き換えています。
論文 参考訳(メタデータ) (2024-10-17T17:58:14Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。