論文の概要: Efficient Context Scaling with LongCat ZigZag Attention
- arxiv url: http://arxiv.org/abs/2512.23966v2
- Date: Tue, 06 Jan 2026 14:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.351024
- Title: Efficient Context Scaling with LongCat ZigZag Attention
- Title(参考訳): LongCat ZigZagアテンションによる効率的なコンテキストスケーリング
- Authors: Chen Zhang, Yang Bai, Jiahuan Li, Anchun Gui, Keheng Wang, Feifan Liu, Guanyu Wu, Yuwei Jiang, Defei Bu, Li Wei, Haihang Jing, Hongyin Tang, Xin Chen, Xiangzhou Huang, Fengcun Li, Rongxiang Weng, Yulei Qian, Yifan Lu, Yerui Sun, Jingang Wang, Yuchen Xie, Xunliang Cai,
- Abstract要約: LongCat ZigZag Attention (LongCat ZigZag Attention, LoZA) は、既存のフルアテンションモデルを比較的限られた計算予算でスパースバージョンに変換するために設計されたスパースアテンションスキームである。
LoZAは、プリフィル集約型(例えば、検索拡張型生成)とデコード集約型(例えば、ツール統合推論)の両方のケースにおいて、大幅なスピードアップを達成することができる。
- 参考スコア(独自算出の注目度): 39.95366576062524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LongCat ZigZag Attention (LoZA), which is a sparse attention scheme designed to transform any existing full-attention models into sparse versions with rather limited compute budget. In long-context scenarios, LoZA can achieve significant speed-ups both for prefill-intensive (e.g., retrieval-augmented generation) and decode-intensive (e.g., tool-integrated reasoning) cases. Specifically, by applying LoZA to LongCat-Flash during mid-training, we serve LongCat-Flash-Exp as a long-context foundation model that can swiftly process up to 1 million tokens, enabling efficient long-term reasoning and long-horizon agentic capabilities.
- Abstract(参考訳): このLoZA(LongCat ZigZag Attention)は、既存のフルアテンションモデルを、比較的限られた計算予算でスパースバージョンに変換するために設計されたスパースアテンションスキームである。
長期のシナリオでは、LoZAはプリフィル集約(例えば、検索拡張生成)とデコード集約(例えば、ツール統合推論)の両方のケースに対して、大幅なスピードアップを達成することができる。
具体的には、トレーニング中のLongCat-FlashにLoZAを適用することで、LongCat-Flash-Expを100万のトークンを迅速に処理し、より効率的な長期推論と長期エージェント機能を実現するロングコンテキスト基盤モデルとして利用します。
関連論文リスト
- LongCat-Flash Technical Report [165.64670448930875]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (2025-09-01T10:05:45Z) - SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文 参考訳(メタデータ) (2025-05-27T06:30:00Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [12.74265334789358]
我々は,中間列から長列への高スループット推論方式であっても,投機的復号化が高速化可能であることを示す。
最大高速化のための最適起草戦略を選択するための理論的モデルを提案する。
中程度から長いシーケンスでは、32から256までのバッチサイズでLlama3.1-8Bの2.51倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。