Fugu-MT 論文翻訳(概要): CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding

論文の概要: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding

arxiv url: http://arxiv.org/abs/2408.04678v1
Date: Thu, 8 Aug 2024 03:38:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 17:39:53.753031
Title: CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding
Title（参考訳）: CREST: 検索ベースの投機的デコーディングのためのデータストアを効果的に圧縮する
Authors: Sophia Ho, Jinsol Park, Patrick Wang,
Abstract要約: CREST(Compact Retrieval-Based Speculative Decoding)は、RESTの再設計であり、効果的に"Compacted"することができる。 CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。
参考スコア（独自算出の注目度）: 1.0104586293349587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present CREST (Compact Retrieval-Based Speculative Decoding), a redesign of REST that allows it to be effectively "compacted". REST is a drafting technique for speculative decoding based on retrieving exact n-gram matches of the most recent n tokens generated by the target LLM from a datastore. The key idea of CREST is to only store a subset of the smallest and most common n-grams in the datastore with the hope of achieving comparable performance with less storage space. We found that storing a subset of n-grams both reduces storage space and improves performance. CREST matches REST's accepted token length with 10.6-13.5x less storage space and achieves a 16.5-17.1% higher acceptance length than REST using the same storage space on the HumanEval and MT Bench benchmarks.
Abstract（参考訳）: 私たちはCREST(Compact Retrieval-Based Speculative Decoding)を紹介します。 RESTは、データストアからターゲット LLM が生成した最新の n 個のトークンの正確な n-gram マッチングを検索する、投機的デコーディングのためのドラフト技術である。 CRESTのキーとなる考え方は、少ないストレージスペースで同等のパフォーマンスを達成することを期待して、最も小さく最も一般的なn-gramのサブセットだけをデータストアに格納することだ。 n-gramのサブセットを格納することで、ストレージスペースが減少し、パフォーマンスが向上することがわかった。 CRESTは、RESTの許容トークン長を10.6-13.5xのストレージスペースと一致させ、HumanEvalとMT Benchベンチマークで同じストレージスペースを使用して、RESTよりも16.5-17.1%高い受け入れ長を達成する。

関連論文リスト

LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文参考訳（メタデータ） (2025-06-09T22:43:30Z)
Efficient Constant-Space Multi-Vector Retrieval [25.834026445124874]
入力トークンに縛られる必要がなくなったベクトルに対して,文書を一定数のベクトルに符号化する手法を提案する。経路は、元の有効性を保ちながら、効果的に一定数のベクトルに符号化できることがわかった。
論文参考訳（メタデータ） (2025-04-02T15:22:23Z)
DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。 Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-21T16:32:28Z)
Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。本稿では,LCLM検索に適した新しい圧縮手法を提案する。また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文参考訳（メタデータ） (2024-12-24T07:30:55Z)
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling [5.232135930253723]
ColBERTによって先導されたマルチベクター検索手法は、ニューラルIRに対するアプローチとしてますます人気が高まっている。しかし、大量のベクトルを格納するために必要なストレージとメモリの要求は、依然として重要な欠点である。簡単なクラスタリングベースのトークンプーリング手法を導入し、保存が必要なベクトルの数を積極的に削減する。
論文参考訳（メタデータ） (2024-09-23T03:12:43Z)
Efficient Inference of Sub-Item Id-based Sequential Recommendation Models with Millions of Items [63.117573355917465]
PQTopKアルゴリズムを用いてRecJPQに基づくモデルの推論効率を改善することができることを示す。我々は、RecJPQで強化されたSASRecを、元のSASRecの推論手法に比べて4.5倍、RecJPQコードで実装された手法に比べて1.56倍の速度で高速化する。
論文参考訳（メタデータ） (2024-08-19T13:43:48Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文参考訳（メタデータ） (2022-05-23T17:53:44Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。