論文の概要: Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling
- arxiv url: http://arxiv.org/abs/2604.24715v1
- Date: Mon, 27 Apr 2026 17:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.266245
- Title: Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling
- Title(参考訳): Long-Context Aware Upcycling - ハイブリッドLLMスケーリングのための新たなフロンティア
- Authors: Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari, Akash Haridas, Mingyu Yang, Vansh Bhatia, Guihong Li, Vikram Appia, Emad Barsoum,
- Abstract要約: HyLoは、効率的な後トレーニングを通じて、使用可能なコンテキスト長を最大32ドルまで拡張する。
HyLoは、一貫して強い短文と長文のパフォーマンスを提供する。
同様のスケールで、HyLo-Qwen-1.7Bは10Bのトークンのみを訓練し、GSM8K、Lm-Harness Common sense reasoning、RULER-64KでJetNemotronを上回った。
- 参考スコア(独自算出の注目度): 25.551309705184234
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hybrid sequence models that combine efficient Transformer components with linear sequence modeling blocks are a promising alternative to pure Transformers, but most are still pretrained from scratch and therefore fail to reuse existing Transformer checkpoints. We study upcycling as a practical path to convert pretrained Transformer LLMs into hybrid architectures while preserving short-context quality and improving long-context capability. We call our solution \emph{HyLo} (HYbrid LOng-context): a long-context upcycling recipe that combines architectural adaptation with efficient Transformer blocks, Multi-Head Latent Attention (MLA), and linear blocks (Mamba2 or Gated DeltaNet), together with staged long-context training and teacher-guided distillation for stable optimization. HyLo extends usable context length by up to $32\times$ through efficient post-training and reduces KV-cache memory by more than $90\%$, enabling up to 2M-token prefill and decoding in our \texttt{vLLM} inference stack, while comparable Llama baselines run out of memory beyond 64K context. Across 1B- and 3B-scale settings (Llama- and Qwen-based variants), HyLo delivers consistently strong short- and long-context performance and significantly outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER. Notably, at similar scale, HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, Lm-Harness common sense reasoning and RULER-64K.
- Abstract(参考訳): 効率的なTransformerコンポーネントと線形シーケンスモデリングブロックを組み合わせたハイブリッドシーケンスモデルは、純粋なTransformerに代わる有望なものだが、その多くはスクラッチから事前訓練されているため、既存のTransformerチェックポイントを再利用できない。
本研究では,事前学習したトランスフォーマーLLMを,短文品質を維持し,長文能力を向上させるとともにハイブリッドアーキテクチャに変換するための実践的な方法として,アップサイクリングについて検討する。
我々は、アーキテクチャ適応を効率的なトランスフォーマーブロック、マルチヘッド遅延注意(MLA)、線形ブロック(Mamba2またはGated DeltaNet)と組み合わせた、長いコンテキストのトレーニングと教師誘導蒸留を組み合わせた長いコンテキストアップサイクルのレシピを、ステージングされた長期学習と安定した最適化のために呼び出す。
HyLoは、効率的なポストトレーニングを通じて使用可能なコンテキスト長を32\times$まで拡張し、KV-cacheメモリを90\%$以上削減し、最大2M-tokenプリフィルとデコードを可能にします。
1Bスケールと3Bスケールのセッティング(LlamaとQwenベースのバリエーション)を通じて、HyLoは一貫して短コンテキストと長コンテキストのパフォーマンスを提供し、RULERのような長コンテキスト評価に基づいて、最先端のアップサイクルハイブリッドベースラインを著しく上回っている。
特にHyLo-Qwen-1.7Bは、GSM8K上のJetNemotron(400Bトークンで訓練された)、Lm-Harness Common sense reasoning、RULER-64Kの10Bトークンで訓練された。
関連論文リスト
- Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models [3.740517574718329]
本稿では,垂直チャンクサイズを超えると入力長が一定になるメモリ使用量で高速な埋め込み生成を可能にする縦チャンク推論戦略を提案する。
Mamba2モデルを微調整することにより、汎用テキスト埋め込みとしての有効性を実証する。
Mamba2、RWKV、xLSTMモデルへの推論戦略の適用性を実証的に検証し、アーキテクチャ間の一貫したランタイムメモリトレードオフを確認する。
論文 参考訳(メタデータ) (2026-04-20T12:50:15Z) - CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling [40.705016911274]
本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。
CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。
CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
論文 参考訳(メタデータ) (2026-02-02T07:49:44Z) - Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts [27.8245634187787]
本稿では,トランスフォーマーモデルをRNN-アテンションハイブリッドモデルに蒸留するためのパイプラインであるHALOを提案する。
そこで,提案するHypeNetは,新しい位置符号化方式により,より優れた長さの一般化を実現したハイブリッドアーキテクチャである。
変換には2.3Bトークンしか必要とせず、事前トレーニングデータの0.01%以下である。
論文 参考訳(メタデータ) (2026-01-29T18:59:53Z) - LAWCAT: Efficient Distillation from Quadratic to Linear Attention with Convolution across Tokens for Long Context Modeling [27.045621004239067]
本稿では,事前学習した変圧器の性能を線形アテンションアーキテクチャに効率よく伝達する新しい線形化フレームワークであるLAWCATを提案する。
LAWCATは因果Conv1D層を統合し、局所的な依存性モデリングを強化し、正規化されたゲート付き線形アテンションを用いてコンテキスト長の一般化を改善する。
以上の結果から,Mistral-7Bを1K長で蒸留すると,90%以上のパスキー検索精度が最大22Kトークンとなることがわかった。
論文 参考訳(メタデータ) (2025-09-22T22:43:44Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。