論文の概要: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding
- arxiv url: http://arxiv.org/abs/2408.04678v1
- Date: Thu, 8 Aug 2024 03:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:39:53.753031
- Title: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding
- Title(参考訳): CREST: 検索ベースの投機的デコーディングのためのデータストアを効果的に圧縮する
- Authors: Sophia Ho, Jinsol Park, Patrick Wang,
- Abstract要約: CREST(Compact Retrieval-Based Speculative Decoding)は、RESTの再設計であり、効果的に"Compacted"することができる。
CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
- 参考スコア(独自算出の注目度): 1.0104586293349587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CREST (Compact Retrieval-Based Speculative Decoding), a redesign of REST that allows it to be effectively "compacted". REST is a drafting technique for speculative decoding based on retrieving exact n-gram matches of the most recent n tokens generated by the target LLM from a datastore. The key idea of CREST is to only store a subset of the smallest and most common n-grams in the datastore with the hope of achieving comparable performance with less storage space. We found that storing a subset of n-grams both reduces storage space and improves performance. CREST matches REST's accepted token length with 10.6-13.5x less storage space and achieves a 16.5-17.1% higher acceptance length than REST using the same storage space on the HumanEval and MT Bench benchmarks.
- Abstract(参考訳): 私たちはCREST(Compact Retrieval-Based Speculative Decoding)を紹介します。
RESTは、データストアからターゲット LLM が生成した最新の n 個のトークンの正確な n-gram マッチングを検索する、投機的デコーディングのためのドラフト技術である。
CRESTのキーとなる考え方は、少ないストレージスペースで同等のパフォーマンスを達成することを期待して、最も小さく最も一般的なn-gramのサブセットだけをデータストアに格納することだ。
n-gramのサブセットを格納することで、ストレージスペースが減少し、パフォーマンスが向上することがわかった。
CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
関連論文リスト
- Accelerating Relative Entropy Coding with Space Partitioning [32.30151436903008]
相対エントロピー符号化(REC)アルゴリズムは、ターゲット分布の$Q$に従ってランダムサンプルを符号化する。
RECアルゴリズムは、少なくとも2D_textKL[Q||P]$の順序で、禁止符号化時間に悩まされる。
本稿では,空間分割を利用したREC方式を提案する。
論文 参考訳(メタデータ) (2024-05-20T17:41:19Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Topic-Grained Text Representation-based Model for Document Retrieval [9.483212308046964]
TGTRは、文書検索のためのトピックグレードテキスト表現ベースのモデルである。
ドキュメント表現をオフラインに保存し、検索効率を保証します。
従来の単語の粒度ではなく、新しいトピックの粒度表現を使用することで、ストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2022-07-11T06:31:21Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Incremental Learning of Structured Memory via Closed-Loop Transcription [20.255633973040183]
本研究は、インクリメンタルな設定で複数のオブジェクトクラスの構造化記憶を学習するための最小限の計算モデルを提案する。
本手法は,従来のインクリメンタルラーニング手法よりもシンプルで,モデルサイズ,ストレージ,計算の面でより効率的である。
実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的リプレイよりも高い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-02-11T02:20:43Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。