論文の概要: Accelerating Retrieval-Augmented Language Model Serving with Speculation
- arxiv url: http://arxiv.org/abs/2401.14021v1
- Date: Thu, 25 Jan 2024 09:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:23:09.993301
- Title: Accelerating Retrieval-Augmented Language Model Serving with Speculation
- Title(参考訳): 推測に基づく検索言語モデルの高速化
- Authors: Zhihao Zhang, Alan Zhu, Lijie Yang, Yihua Xu, Lanting Li, Phitchaya
Mangpo Phothilimthana, Zhihao Jia
- Abstract要約: Retrieval-augmented Language Model (RaLM)は、知識集約自然言語処理(NLP)タスクを解く可能性を実証している。
提案するRaLMSpecは投機にインスパイアされたフレームワークで,反復的なRaLMの高速化を実現する。
- 参考スコア(独自算出の注目度): 7.100858887452073
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented language models (RaLM) have demonstrated the potential to
solve knowledge-intensive natural language processing (NLP) tasks by combining
a non-parametric knowledge base with a parametric language model. Instead of
fine-tuning a fully parametric model, RaLM excels at its low-cost adaptation to
the latest data and better source attribution mechanisms. Among various RaLM
approaches, iterative RaLM delivers a better generation quality due to a more
frequent interaction between the retriever and the language model. Despite the
benefits, iterative RaLM usually encounters high overheads due to the frequent
retrieval step. To this end, we propose RaLMSpec, a speculation-inspired
framework that provides generic speed-up over iterative RaLM while preserving
the same model outputs through speculative retrieval and batched verification.
By further incorporating prefetching, optimal speculation stride scheduler, and
asynchronous verification, RaLMSpec can automatically exploit the acceleration
potential to the fullest. For naive iterative RaLM serving, extensive
evaluations over three language models on four downstream QA datasets
demonstrate that RaLMSpec can achieve a speed-up ratio of 1.75-2.39x,
1.04-1.39x, and 1.31-1.77x when the retriever is an exact dense retriever,
approximate dense retriever, and sparse retriever respectively compared with
the baseline. For KNN-LM serving, RaLMSpec can achieve a speed-up ratio up to
7.59x and 2.45x when the retriever is an exact dense retriever and approximate
dense retriever, respectively, compared with the baseline.
- Abstract(参考訳): Retrieval-augmented Language Model (RaLM)は、非パラメトリック知識ベースとパラメトリック言語モデルを組み合わせることで、知識集約自然言語処理(NLP)タスクを解く可能性を実証している。
完全なパラメトリックモデルを微調整する代わりに、ralmは、最新のデータへの低コストな適応とより良いソース帰属メカニズムに優れている。
様々なRaLMアプローチの中で、反復RaLMは、レトリバーと言語モデルとのより頻繁な相互作用のために、より優れた生成品質を提供する。
この利点にもかかわらず、反復的なRaLMは通常、頻繁な検索ステップのために高いオーバーヘッドに直面する。
そこで我々はRaLMSpecを提案する。RaLMSpecは投機的検索とバッチ検証によって同じモデル出力を保ちながら反復的RaLMを高速化する投機的フレームワークである。
さらに、プリフェッチ、最適投機ストライドスケジューラ、非同期検証を組み込むことで、ralmspecは自動的に加速ポテンシャルを最大限に活用することができる。
4つの下流QAデータセット上での3つの言語モデルに対する広範な評価は、検索者が厳密な検索者である場合、RaLMSpecは1.75-2.39x、1.04-1.39x、および1.31-1.77xのスピードアップ比をベースラインと比較できることを示している。
KNN-LMサービスの場合、RLMSpecはベースラインと比較して、レトリバーが密密検索器であり、近似密検索器である場合、最大7.59xと2.45xのスピードアップ比が得られる。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。
従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。
我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文 参考訳(メタデータ) (2024-11-06T14:42:39Z) - LLM-PQA: LLM-enhanced Prediction Query Answering [7.346989832385652]
本稿では,自然言語で表現された予測クエリに対処する新しいツール LLM-PQA を紹介する。
この統合により、ユーザは多様な異種データと多様なMLモデルにアクセスでき、動的予測クエリ応答が容易になる。
論文 参考訳(メタデータ) (2024-09-02T10:20:35Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - cTBLS: Augmenting Large Language Models with Conversational Tables [0.76146285961466]
会話表(英語: Conversational Tables、cTBLS)は、検索した表情報に基づいて対話応答を検索して生成する3段階アーキテクチャである。
人間の評価者は、cTBLs+80%の時間(コヒーレンシー、流派)を好んでおり、以前の最先端よりも4倍良いと判断する。
論文 参考訳(メタデータ) (2023-03-21T17:04:44Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。