論文の概要: CopySpec: Accelerating LLMs with Speculative Copy-and-Paste Without Compromising Quality
- arxiv url: http://arxiv.org/abs/2502.08923v1
- Date: Thu, 13 Feb 2025 03:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:56.551042
- Title: CopySpec: Accelerating LLMs with Speculative Copy-and-Paste Without Compromising Quality
- Title(参考訳): CopySpec: 品質を損なわない投機的コピー&ペーストによるLCMの高速化
- Authors: Razvan-Gabriel Dumitru, Minglai Yang, Vikas Yadav, Mihai Surdeanu,
- Abstract要約: 我々は、従来の出力とよく似た応答を生成する際に、LLMが直面する非効率に対処するために設計された革新的な技術であるCopySpecを紹介する。
CopySpecは、モデルのチャット履歴における繰り返しシーケンスを特定し、同じトークンが従うと推測し、出力品質を損なうことなくシームレスなコピーを可能にする。
CopySpecは投機的復号化とシームレスに統合され,平均49%の高速化を実現している。
- 参考スコア(独自算出の注目度): 20.538987303159274
- License:
- Abstract: We introduce CopySpec, an innovative technique designed to tackle the inefficiencies LLMs face when generating responses that closely resemble previous outputs. CopySpec identifies repeated sequences in the model's chat history and speculates that the same tokens will follow, enabling seamless copying without compromising output quality or requiring additional GPU memory. To evaluate the effectiveness of our approach, we conducted experiments using five LLMs and five datasets: MT-Bench, CNN/DM, GSM-8K, HumanEval, and our newly created dataset, MT-Redundant. MT-Redundant, introduced in this paper, transforms the second turn of MT-Bench into a request for variations of the first turn's answer, simulating real-world scenarios where users request modifications to prior responses. Our results demonstrate significant speed-ups: up to 2.35x on CNN/DM, 3.08x on the second turn of select MT-Redundant categories, and 2.66x on the third turn of GSM-8K's self-correction tasks. Moreover, we show that CopySpec integrates seamlessly with speculative decoding, yielding an average 49% additional speed-up over speculative decoding for the second turn of MT-Redundant across all eight categories. While LLMs, even with speculative decoding, suffer from slower inference as context sizes grow, CopySpec leverages the expanded context to accelerate inference, making it faster as the context size increases. Our code and dataset are publicly available at https://github.com/RazvanDu/CopySpec.
- Abstract(参考訳): 我々は、従来の出力とよく似た応答を生成する際に、LLMが直面する非効率に対処するために設計された革新的な技術であるCopySpecを紹介する。
CopySpecは、モデルのチャット履歴における繰り返しシーケンスを特定し、同じトークンが従うと推測し、出力品質を損なうことなくシームレスにコピーしたり、追加のGPUメモリを必要とするようにする。
提案手法の有効性を評価するため,MT-Bench,CNN/DM,GSM-8K,HumanEval,新たに作成したMT-Redundantの5つのLLMと5つのデータセットを用いて実験を行った。
本論文で紹介したMT-Redundantは,MT-Benchの第2ターンを第1ターンの応答のバリエーションを求める要求に変換する。
その結果,CNN/DMでは2.35倍,MT-redundantカテゴリーでは3.8倍,GSM-8Kでは3ターンでは2.66倍に向上した。
さらに,CopySpecは投機的復号法とシームレスに統合され,投機的復号法よりも平均49%の高速化が得られた。
LLMは、投機的デコーディングであっても、コンテキストサイズが大きくなるにつれて推論が遅くなるが、CopySpecは拡張されたコンテキストを活用して推論を加速し、コンテキストサイズが大きくなるにつれて高速になる。
私たちのコードとデータセットはhttps://github.com/RazvanDu/CopySpecで公開されています。
関連論文リスト
- Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - AToM: Amortized Text-to-Mesh using 2D Diffusion [107.02696990299032]
Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに同時に最適化されたフィードフォワードフレームワークである。
AToMはトレーニングコストの約10倍の削減とともに、1秒未満で高品質なテクスチャメッシュを直接生成する。
AToMは4倍以上の精度で最先端のアモルト化アプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - Speculative Decoding: Exploiting Speculative Execution for Accelerating
Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。
SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文 参考訳(メタデータ) (2022-03-30T17:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。