論文の概要: DReSD: Dense Retrieval for Speculative Decoding
- arxiv url: http://arxiv.org/abs/2502.15572v1
- Date: Fri, 21 Feb 2025 16:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:47.437536
- Title: DReSD: Dense Retrieval for Speculative Decoding
- Title(参考訳): DReSD:投機的復号化のためのDense Retrieval
- Authors: Milan Gritta, Huiyin Xue, Gerasimos Lampouras,
- Abstract要約: 投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 8.220217498103315
- License:
- Abstract: Speculative decoding (SD) accelerates Large Language Model (LLM) generation by using an efficient draft model to propose the next few tokens, which are verified by the LLM in a single forward call, reducing latency while preserving its outputs. We focus on retrieval-based SD where the draft model retrieves the next tokens from a non-parametric datastore. Sparse retrieval (REST), which operates on the surface form of strings, is currently the dominant paradigm due to its simplicity and scalability. However, its effectiveness is limited due to the usage of short contexts and exact string matching. Instead, we introduce Dense Retrieval for Speculative Decoding (DReSD), a novel framework that uses approximate nearest neighbour search with contextualised token embeddings to retrieve the most semantically relevant token sequences for SD. Extensive experiments show that DReSD achieves (on average) 87% higher acceptance rates, 65% longer accepted tokens and 19% faster generation speeds compared to sparse retrieval (REST).
- Abstract(参考訳): 投機的復号(SD)は、効率的なドラフトモデルを用いて大規模言語モデル(LLM)の生成を加速し、次の数個のトークンを提案する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
文字列の表面形式で動作するスパース検索(REST)は、そのシンプルさとスケーラビリティのために、現在支配的なパラダイムである。
しかし、短い文脈と正確な文字列マッチングの使用により、その効果は限られている。
代わりに、Dense Retrieval for Speculative Decoding (DReSD) を導入し、SDの最もセマンティックに関係のあるトークンシーケンスを検索するために、コンテキスト化されたトークン埋め込みで近接した近傍探索を利用する新しいフレームワークを紹介した。
大規模な実験によると、DReSDは(平均で)87%高い受け入れ率、65%のトークンが受け入れられ、スパース検索(REST)に比べて19%高速な生成速度を実現している。
関連論文リスト
- Speeding up Speculative Decoding via Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。
本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。
本稿では,SPRINTERの理論解析を行い,生成したトークンの統計的特性と遅延の低減について検討する。
論文 参考訳(メタデータ) (2025-02-06T23:10:53Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - SAM Decoding: Speculative Decoding via Suffix Automaton [22.289906743980445]
本稿では,検索に基づく新しい投機的復号法を提案する。
共通テキストコーパスと動的テキストシーケンスを利用して、効率よく正確なドラフト生成のために接尾辞オートマトンを適応する。
Spec-Benchの実験から,本手法は他のSD法よりも18%以上高速であることがわかった。
論文 参考訳(メタデータ) (2024-11-16T02:02:49Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Adapting Learned Sparse Retrieval for Long Documents [23.844134960568976]
学習されたスパース検索(LSR)は、クエリとドキュメントを語彙に整合したスパース重みベクトルに変換するニューラルネットワークのファミリーである。
SpladeのようなLSRアプローチは短いパスでうまく機能するが、どれだけ長いドキュメントを扱うかは定かではない。
我々は,LSRを長い文書に適用するための既存の集約手法について検討し,LSRが長い文書を扱うためには近位スコアリングが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-29T13:50:16Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。