論文の概要: From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
- arxiv url: http://arxiv.org/abs/2502.18890v1
- Date: Wed, 26 Feb 2025 07:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:57.851517
- Title: From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
- Title(参考訳): 数時間から数分:100万トンまでの超長周期の無作為加速
- Authors: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng,
- Abstract要約: TOKENSWIFTは超長周期の生成過程を大幅に高速化するように設計されている。
様々なスケールのモデルで3倍以上のスピードアップを達成する。
これは超長いシーケンス生成のための数時間の節約を意味する。
- 参考スコア(独自算出の注目度): 26.79477846621806
- License:
- Abstract: Generating ultra-long sequences with large language models (LLMs) has become increasingly crucial but remains a highly time-intensive task, particularly for sequences up to 100K tokens. While traditional speculative decoding methods exist, simply extending their generation limits fails to accelerate the process and can be detrimental. Through an in-depth analysis, we identify three major challenges hindering efficient generation: frequent model reloading, dynamic key-value (KV) management and repetitive generation. To address these issues, we introduce TOKENSWIFT, a novel framework designed to substantially accelerate the generation process of ultra-long sequences while maintaining the target model's inherent quality. Experimental results demonstrate that TOKENSWIFT achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B, 14B) and architectures (MHA, GQA). This acceleration translates to hours of time savings for ultra-long sequence generation, establishing TOKENSWIFT as a scalable and effective solution at unprecedented lengths. Code can be found at https://github.com/bigai-nlco/TokenSwift.
- Abstract(参考訳): 大規模言語モデル(LLM)による超長いシーケンスの生成はますます重要になっているが、特に100Kトークンまでのシーケンスでは、非常に時間を要するタスクである。
従来の投機的復号法は存在するが、単に生成限界を拡張するだけではプロセスの高速化に失敗し、有害となる可能性がある。
詳細な分析を通じて、頻繁なモデル再ロード、動的キー値(KV)管理、反復生成という、効率的な生成を妨げる3つの大きな課題を特定する。
これらの問題に対処するために,ターゲットモデル固有の品質を維持しつつ,超長大シーケンスの生成過程を大幅に高速化する新しいフレームワークTOKENSWIFTを導入する。
実験の結果,TOKENSWIFTは様々なスケール (1.5B, 7B, 8B, 14B) のモデルとアーキテクチャ (MHA, GQA) の3倍以上の高速化を実現している。
この加速は、超長いシーケンス生成のための数時間の節約につながり、TOKENSWIFTを前例のない長さでスケーラブルで効果的なソリューションとして確立する。
コードはhttps://github.com/bigai-nlco/TokenSwiftにある。
関連論文リスト
- Apollo-Forecast: Overcoming Aliasing and Inference Speed Challenges in Language Models for Time Series Forecasting [16.177920916883565]
アンチエイリアシング量子化モジュール(AAQM)とレースデコーディング(RD)技術について述べる。
AAQMは、元の信号の高周波ノイズを緩和しながら、シーケンスをトークンに順応的にエンコードする。
RDは並列処理と結果の統合を可能にするためにドラフトモデルを採用しており、長期予測の推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-16T11:01:20Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。