Fugu-MT 論文翻訳(概要): Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

論文の概要: Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

arxiv url: http://arxiv.org/abs/2502.05609v1
Date: Sat, 08 Feb 2025 15:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.029333
Title: Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding
Title（参考訳）: 投機的復号における時間的局所性に基づく階層的描画を伴う大規模言語モデルの無意味高速化
Authors: Sukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon,
Abstract要約: LLM(Large Language Models)における推論の高速化は、リアルタイムインタラクションにおいて重要である。投機的復号化は、トークンの起草と検証によって推論速度の向上に注目され、1つのフォワードパスで複数のトークンが生成される。本稿では,時間的局所性に基づく階層型フレームワークを用いて,さまざまなトークンソースを複数のデータベースにまとめる,新しい無損失ドラフト手法である階層ドラフト(HD)を提案する。 7B と 13B のパラメータを持つ LLM を用いた Spec-Bench 実験では,HD が既存のデータベースドラフト手法より優れており,モデルサイズ,タスク,温度に対する堅牢な推論スピードアップが達成されている。
参考スコア（独自算出の注目度）: 11.167833073080612
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accelerating inference in Large Language Models (LLMs) is critical for real-time interactions, as they have been widely incorporated into real-world services. Speculative decoding, a fully algorithmic solution, has gained attention for improving inference speed by drafting and verifying tokens, thereby generating multiple tokens in a single forward pass. However, current drafting strategies usually require significant fine-tuning or have inconsistent performance across tasks. To address these challenges, we propose Hierarchy Drafting (HD), a novel lossless drafting approach that organizes various token sources into multiple databases in a hierarchical framework based on temporal locality. In the drafting step, HD sequentially accesses multiple databases to obtain draft tokens from the highest to the lowest locality, ensuring consistent acceleration across diverse tasks and minimizing drafting latency. Our experiments on Spec-Bench using LLMs with 7B and 13B parameters demonstrate that HD outperforms existing database drafting methods, achieving robust inference speedups across model sizes, tasks, and temperatures.
Abstract（参考訳）: LLM(Large Language Models)における推論の高速化は、現実のサービスに広く組み込まれているため、リアルタイムのインタラクションに不可欠である。完全にアルゴリズム的な解である投機的復号化は、トークンの起草と検証によって推論速度の向上に注目され、1つのフォワードパスで複数のトークンが生成される。しかし、現在のドラフト戦略は、通常、かなりの微調整を必要とするか、タスク間での一貫性のないパフォーマンスを必要とする。これらの課題に対処するために、時間的局所性に基づく階層的枠組みを用いて、さまざまなトークンソースを複数のデータベースにまとめる、新しいロスレスドラフト手法である階層ドラフト(HD)を提案する。ドラフトステップでは、HDは複数のデータベースに順次アクセスして、最高から最低のローカリティからドラフトトークンを取得する。 7B と 13B のパラメータを持つ LLM を用いた Spec-Bench 実験では,HD が既存のデータベースドラフト手法より優れており,モデルサイズ,タスク,温度に対する堅牢な推論スピードアップが達成されている。

関連論文リスト

CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
Hierarchical Verification of Speculative Beams for Accelerating LLM Inference [0.0]
階層的検証木(Hierarchical Verification Tree、HVT)は投機的ビーム復号化を高度に優先順位付けすることで再構成する新しいフレームワークである。 HVTは既存の投機的復号法を一貫して上回り、推論時間とエネルギー消費を大幅に削減する。発見は、大規模言語モデル推論を加速するための新しい方向として階層的検証戦略の可能性を強調している。
論文参考訳（メタデータ） (2025-07-30T02:58:03Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文参考訳（メタデータ） (2025-02-21T04:19:24Z)
Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文参考訳（メタデータ） (2025-01-31T19:13:58Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。