論文の概要: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding
- arxiv url: http://arxiv.org/abs/2408.04678v1
- Date: Thu, 8 Aug 2024 03:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:39:53.753031
- Title: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding
- Title(参考訳): CREST: 検索ベースの投機的デコーディングのためのデータストアを効果的に圧縮する
- Authors: Sophia Ho, Jinsol Park, Patrick Wang,
- Abstract要約: CREST(Compact Retrieval-Based Speculative Decoding)は、RESTの再設計であり、効果的に"Compacted"することができる。
CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
- 参考スコア(独自算出の注目度): 1.0104586293349587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CREST (Compact Retrieval-Based Speculative Decoding), a redesign of REST that allows it to be effectively "compacted". REST is a drafting technique for speculative decoding based on retrieving exact n-gram matches of the most recent n tokens generated by the target LLM from a datastore. The key idea of CREST is to only store a subset of the smallest and most common n-grams in the datastore with the hope of achieving comparable performance with less storage space. We found that storing a subset of n-grams both reduces storage space and improves performance. CREST matches REST's accepted token length with 10.6-13.5x less storage space and achieves a 16.5-17.1% higher acceptance length than REST using the same storage space on the HumanEval and MT Bench benchmarks.
- Abstract(参考訳): 私たちはCREST(Compact Retrieval-Based Speculative Decoding)を紹介します。
RESTは、データストアからターゲット LLM が生成した最新の n 個のトークンの正確な n-gram マッチングを検索する、投機的デコーディングのためのドラフト技術である。
CRESTのキーとなる考え方は、少ないストレージスペースで同等のパフォーマンスを達成することを期待して、最も小さく最も一般的なn-gramのサブセットだけをデータストアに格納することだ。
n-gramのサブセットを格納することで、ストレージスペースが減少し、パフォーマンスが向上することがわかった。
CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
関連論文リスト
- Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling [5.232135930253723]
ColBERTによって先導されたマルチベクター検索手法は、ニューラルIRに対するアプローチとしてますます人気が高まっている。
しかし、大量のベクトルを格納するために必要なストレージとメモリの要求は、依然として重要な欠点である。
簡単なクラスタリングベースのトークンプーリング手法を導入し、保存が必要なベクトルの数を積極的に削減する。
論文 参考訳(メタデータ) (2024-09-23T03:12:43Z) - Efficient Inference of Sub-Item Id-based Sequential Recommendation Models with Millions of Items [63.117573355917465]
PQTopKアルゴリズムを用いてRecJPQに基づくモデルの推論効率を改善することができることを示す。
我々は、RecJPQで強化されたSASRecを、元のSASRecの推論手法に比べて4.5倍、RecJPQコードで実装された手法に比べて1.56倍の速度で高速化する。
論文 参考訳(メタデータ) (2024-08-19T13:43:48Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。