論文の概要: Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts
- arxiv url: http://arxiv.org/abs/2601.22156v1
- Date: Thu, 29 Jan 2026 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.111591
- Title: Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts
- Title(参考訳): ハイブリッドリニアアテンションが正しい: 極めて長いコンテキストに対する効率的な蒸留と効果的なアーキテクチャ
- Authors: Yingfa Chen, Zhen Leng Thai, Zihan Zhou, Zhu Zhang, Xingyu Shen, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu,
- Abstract要約: 本稿では,トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALOを提案する。
そこで,提案するHypeNetは,新しい位置符号化方式により,より優れた長さの一般化を実現したハイブリッドアーキテクチャである。
変換には2.3Bトークンしか必要とせず、事前トレーニングデータの0.01%以下である。
- 参考スコア(独自算出の注目度): 27.8245634187787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data
- Abstract(参考訳): ソフトマックスアテンションブロックとリカレントニューラルネットワーク(RNN)を組み合わせたハイブリッドトランスフォーマーアーキテクチャは、長期コンテキストモデリングに望ましいパフォーマンススループットトレードオフを示しているが、その採用と研究は、大規模な事前トレーニングをスクラッチから禁止するコストによって妨げられている。
近年の研究では、パラメータ転送と知識蒸留により、事前学習したソフトマックスアテンションブロックをRNNブロックに変換することが示されている。
しかし、これらのトランスファー手法は、かなりの量のトレーニングデータ(10Bトークン以上)を必要とするため、結果として得られたハイブリッドモデルは、長文のパフォーマンスも劣る。
本稿では、トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALO(Hybrid Attention via Layer Optimization)を提案する。
そこで,HypeNetを提案する。HypeNetは,新しい位置符号化方式(HyPE)と様々なアーキテクチャ変更により,より優れた長さの一般化を実現したハイブリッドアーキテクチャである。
我々は、Qwen3シリーズをHALOを用いてHypeNetに変換し、より優れた長文性能と効率を享受しながら、オリジナルのTransformerモデルに匹敵する性能を達成する。
変換には2.3Bトークンしか必要とせず、事前トレーニングデータの0.01%以下である。
関連論文リスト
- Native Hybrid Attention for Efficient Sequence Modeling [12.306252523159197]
ネイティブハイブリッドアテンション(NHA)は、線形およびフルアテンションの新たなハイブリッドアーキテクチャである。
単一のtextttsoftmaxアテンション操作は、すべてのキーと値に適用される。
実験結果から,NHAはリコール集約・コモンセンス推論タスクにおいてトランスフォーマーを上回ることがわかった。
論文 参考訳(メタデータ) (2025-10-08T13:44:57Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - LightTransfer: Your Long-Context LLM is Secretly a Hybrid Model with Effortless Adaptation [37.21518386315535]
長いコンテキストを扱うために言語モデルをスケールすることは、かなりのメモリ課題をもたらす。
LLaMAなどのモデルからハイブリッドなモデルに変換するLightTransferを提案する。
当社のアプローチでは,最近のトークンや初期トークンに注目した遅延レイヤを特定して,その全注目をストリーミングの注目に置き換えています。
論文 参考訳(メタデータ) (2024-10-17T17:58:14Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。