論文の概要: Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation
- arxiv url: http://arxiv.org/abs/2502.02789v1
- Date: Wed, 05 Feb 2025 00:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:01.481583
- Title: Speculative Prefill: Turbocharging TTFT with Lightweight and Training-Free Token Importance Estimation
- Title(参考訳): 投機的予備充填:軽量・無訓練トークン重要度推定によるTTFTのターボチャージ
- Authors: Jingyu Liu, Beidi Chen, Ce Zhang,
- Abstract要約: TTFT(Time-to-first-Token)の改良は、現代の大規模言語モデル(LLM)推論エンジンにおいて本質的に重要な目標である。
長文および中文の問合せに対してTTFTを高速化するトレーニングフリーフレームワークであるSpecPrefillを提案する。
各種タスクのセットでSpecPrefillを評価した上で、実際のエンドツーエンド設定とアブレーション研究の両方において、パフォーマンス改善の総合的なベンチマークを行った。
- 参考スコア(独自算出の注目度): 17.488482918851727
- License:
- Abstract: Improving time-to-first-token (TTFT) is an essentially important objective in modern large language model (LLM) inference engines. Because optimizing TTFT directly results in higher maximal QPS and meets the requirements of many critical applications. However, boosting TTFT is notoriously challenging since it is purely compute-bounded and the performance bottleneck shifts from the self-attention to the MLP part. We present SpecPrefill, a training free framework that accelerates the inference TTFT for both long and medium context queries based on the following insight: LLMs are generalized enough to still preserve the quality given only a carefully chosen subset of prompt tokens. At its core, SpecPrefill leverages a lightweight model to speculate locally important tokens based on the context. These tokens, along with the necessary positional information, are then sent to the main model for processing. We evaluate SpecPrefill with a diverse set of tasks, followed by a comprehensive benchmarking of performance improvement both in a real end-to-end setting and ablation studies. SpecPrefill manages to serve Llama-3.1-405B-Instruct-FP8 with up to $7\times$ maximal end-to-end QPS on real downstream tasks and $7.66\times$ TTFT improvement during benchmarking.
- Abstract(参考訳): TTFT(Time-to-first-Token)の改良は、現代の大言語モデル(LLM)推論エンジンにおいて本質的に重要な目標である。
TTFTの最適化は直接的に高い最大QPSをもたらし、多くの重要なアプリケーションの要求を満たす。
しかし、TTFTの強化は、純粋に計算バウンドであり、パフォーマンスボトルネックは自己注意からMPP部分へシフトするため、非常に難しい。
本稿では,長文・中文両方のコンテキストクエリに対してTTFTを高速化するトレーニングフリーフレームワークであるSpecPrefillについて述べる。
SpecPrefillの中核となるのは、コンテキストに基づいてローカルに重要なトークンを推測するために、軽量モデルを活用することだ。
これらのトークンは必要な位置情報とともに、処理のためにメインモデルに送られる。
各種タスクのセットでSpecPrefillを評価した上で、実際のエンドツーエンド設定とアブレーション研究の両方において、パフォーマンス改善の総合的なベンチマークを行った。
SpecPrefill は Llama-3.1-405B-Instruct-FP8 に 7\times$ maximal end-to-end QPS on real downstream task と 7.66\times$ TTFT Improvement を提供する。
関連論文リスト
- Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner [14.975436239088312]
我々は,NLPの事前学習が下流タスクにおけるファインチューニング(FT)の性能を向上させるという概念を再考する。
本稿では,Promptベースの継続事前学習(PCP)を提案する。
21のベンチマークによる実証評価の結果,PCP は最先端のプロンプトベースのFT アプローチの性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-05-02T18:25:30Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。