Fugu-MT 論文翻訳(概要): Accelerating Retrieval-Augmented Language Model Serving with Speculation

論文の概要: Accelerating Retrieval-Augmented Language Model Serving with Speculation

arxiv url: http://arxiv.org/abs/2401.14021v1
Date: Thu, 25 Jan 2024 09:06:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:23:09.993301
Title: Accelerating Retrieval-Augmented Language Model Serving with Speculation
Title（参考訳）: 推測に基づく検索言語モデルの高速化
Authors: Zhihao Zhang, Alan Zhu, Lijie Yang, Yihua Xu, Lanting Li, Phitchaya Mangpo Phothilimthana, Zhihao Jia
Abstract要約: Retrieval-augmented Language Model (RaLM)は、知識集約自然言語処理(NLP)タスクを解く可能性を実証している。提案するRaLMSpecは投機にインスパイアされたフレームワークで,反復的なRaLMの高速化を実現する。
参考スコア（独自算出の注目度）: 7.100858887452073
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Retrieval-augmented language models (RaLM) have demonstrated the potential to solve knowledge-intensive natural language processing (NLP) tasks by combining a non-parametric knowledge base with a parametric language model. Instead of fine-tuning a fully parametric model, RaLM excels at its low-cost adaptation to the latest data and better source attribution mechanisms. Among various RaLM approaches, iterative RaLM delivers a better generation quality due to a more frequent interaction between the retriever and the language model. Despite the benefits, iterative RaLM usually encounters high overheads due to the frequent retrieval step. To this end, we propose RaLMSpec, a speculation-inspired framework that provides generic speed-up over iterative RaLM while preserving the same model outputs through speculative retrieval and batched verification. By further incorporating prefetching, optimal speculation stride scheduler, and asynchronous verification, RaLMSpec can automatically exploit the acceleration potential to the fullest. For naive iterative RaLM serving, extensive evaluations over three language models on four downstream QA datasets demonstrate that RaLMSpec can achieve a speed-up ratio of 1.75-2.39x, 1.04-1.39x, and 1.31-1.77x when the retriever is an exact dense retriever, approximate dense retriever, and sparse retriever respectively compared with the baseline. For KNN-LM serving, RaLMSpec can achieve a speed-up ratio up to 7.59x and 2.45x when the retriever is an exact dense retriever and approximate dense retriever, respectively, compared with the baseline.
Abstract（参考訳）: Retrieval-augmented Language Model (RaLM)は、非パラメトリック知識ベースとパラメトリック言語モデルを組み合わせることで、知識集約自然言語処理(NLP)タスクを解く可能性を実証している。完全なパラメトリックモデルを微調整する代わりに、ralmは、最新のデータへの低コストな適応とより良いソース帰属メカニズムに優れている。様々なRaLMアプローチの中で、反復RaLMは、レトリバーと言語モデルとのより頻繁な相互作用のために、より優れた生成品質を提供する。この利点にもかかわらず、反復的なRaLMは通常、頻繁な検索ステップのために高いオーバーヘッドに直面する。そこで我々はRaLMSpecを提案する。RaLMSpecは投機的検索とバッチ検証によって同じモデル出力を保ちながら反復的RaLMを高速化する投機的フレームワークである。さらに、プリフェッチ、最適投機ストライドスケジューラ、非同期検証を組み込むことで、ralmspecは自動的に加速ポテンシャルを最大限に活用することができる。 4つの下流QAデータセット上での3つの言語モデルに対する広範な評価は、検索者が厳密な検索者である場合、RaLMSpecは1.75-2.39x、1.04-1.39x、および1.31-1.77xのスピードアップ比をベースラインと比較できることを示している。 KNN-LMサービスの場合、RLMSpecはベースラインと比較して、レトリバーが密密検索器であり、近似密検索器である場合、最大7.59xと2.45xのスピードアップ比が得られる。

関連論文リスト

Revela: Dense Retriever Learning via Language Modeling [85.12131321155486]
本稿では,言語モデリングによる自己教師型検索学習のための統合学習フレームワークであるRevelaを紹介する。一般ドメイン (BEIR) とドメイン固有 (CoIR) のベンチマークで様々なバックボーン上でRevelaを評価する。
論文参考訳（メタデータ） (2025-06-19T19:13:59Z)
ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文参考訳（メタデータ） (2025-04-29T09:49:28Z)
Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
大規模言語モデル(LLM)は魅力的な意味理解能力を示している。デンス検索は情報検索(IR)において重要な課題であり、下流タスクを再びランク付けする基盤となっている。我々は、差別的検索器のコントラスト学習のためのより良いバックボーンを得るために、QL推定の補助的タスクを導入する。
論文参考訳（メタデータ） (2025-04-07T16:03:59Z)
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance [21.777817032607405]
大規模言語モデル(LLM)は、クエリ拡張による高密度検索の強化に有意な可能性を証明している。本研究では,LLM拡張高密度検索フレームワークExpandRを提案する。複数のベンチマーク実験の結果、ExpandRは強いベースラインを一貫して上回ることがわかった。
論文参考訳（メタデータ） (2025-02-24T11:15:41Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Fine-Grained Guidance for Retrievers: Leveraging LLMs' Feedback in Retrieval-Augmented Generation [20.420575358183687]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)に固有の幻覚を緩和する有効な方法であることが証明されている。従来のアプローチでは、通常、RAGの最適化に欠けるセマンティックな類似性に基づいて、レトリバーをトレーニングする。我々は,LLMの言語機能を活用して,より粒度の細かい情報中心の視点からサンプルを構築する新しいフレームワークFiGRetを提案する。
論文参考訳（メタデータ） (2024-11-06T14:42:39Z)
Efficient Long-range Language Modeling with Self-supervised Causal Retrieval [39.24972628990943]
Grouped Cross-Attentionは、レトリバーと因果LMの協調事前トレーニングを可能にする新しいモジュールである。トップ$kの検索を統合することで、コンテキスト長を最大64Kのトークンでスクラッチから効率的に事前トレーニングすることが可能になります。
論文参考訳（メタデータ） (2024-10-02T15:18:34Z)
LLM-PQA: LLM-enhanced Prediction Query Answering [7.346989832385652]
本稿では,自然言語で表現された予測クエリに対処する新しいツール LLM-PQA を紹介する。この統合により、ユーザは多様な異種データと多様なMLモデルにアクセスでき、動的予測クエリ応答が容易になる。
論文参考訳（メタデータ） (2024-09-02T10:20:35Z)
Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文参考訳（メタデータ） (2024-06-20T21:07:55Z)
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。 SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文参考訳（メタデータ） (2023-11-10T00:17:10Z)
SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。 SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文参考訳（メタデータ） (2023-07-19T22:48:02Z)
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。 RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文参考訳（メタデータ） (2023-06-23T10:18:02Z)
Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文参考訳（メタデータ） (2023-04-27T14:45:55Z)
cTBLS: Augmenting Large Language Models with Conversational Tables [0.76146285961466]
会話表(英語: Conversational Tables、cTBLS)は、検索した表情報に基づいて対話応答を検索して生成する3段階アーキテクチャである。人間の評価者は、cTBLs+80%の時間(コヒーレンシー、流派)を好んでおり、以前の最先端よりも4倍良いと判断する。
論文参考訳（メタデータ） (2023-03-21T17:04:44Z)
Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。 AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文参考訳（メタデータ） (2021-10-07T16:41:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。