Fugu-MT 論文翻訳(概要): LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference

論文の概要: LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference

arxiv url: http://arxiv.org/abs/2505.12260v2
Date: Sun, 22 Jun 2025 07:02:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 14:54:00.309952
Title: LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference
Title（参考訳）: LightRetriever: 1000倍高速クエリ推論を備えたLLMベースのハイブリッド検索アーキテクチャ
Authors: Guangyuan Ma, Yongliang Ma, Xuanrui Gou, Zhenpeng Su, Ming Zhou, Songlin Hu,
Abstract要約: 大規模言語モデル(LLM)に基づくハイブリッド検索では、LLMを用いてクエリやドキュメントを低次元の密度あるいは高次元のスパースベクトルにエンコードする。超軽量なクエリエンコーダを備えたLLMベースのハイブリッドレトリバーであるLightRetrieverを提案する。
参考スコア（独自算出の注目度）: 31.040756207765796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs)-based hybrid retrieval uses LLMs to encode queries and documents into low-dimensional dense or high-dimensional sparse vectors. It retrieves documents relevant to search queries based on vector similarities. Documents are pre-encoded offline, while queries arrive in real-time, necessitating an efficient online query encoder. Although LLMs significantly enhance retrieval capabilities, serving deeply parameterized LLMs slows down query inference throughput and increases demands for online deployment resources. In this paper, we propose LightRetriever, a novel LLM-based hybrid retriever with extremely lightweight query encoders. Our method retains a full-sized LLM for document encoding, but reduces the workload of query encoding to no more than an embedding lookup. Compared to serving a full-sized LLM on an H800 GPU, our approach achieves over a 1000x speedup for query inference with GPU acceleration, and even a 20x speedup without GPU. Experiments on large-scale retrieval benchmarks demonstrate that our method generalizes well across diverse retrieval tasks, retaining an average of 95% full-sized performance.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づくハイブリッド検索では、LLMを用いてクエリやドキュメントを低次元の密度あるいは高次元のスパースベクトルにエンコードする。ベクトル類似性に基づいて検索クエリに関連するドキュメントを検索する。ドキュメントはオフラインで事前エンコードされ、クエリはリアルタイムで到着し、効率的なオンラインクエリエンコーダを必要とする。 LLMは検索機能を大幅に強化するが、深くパラメータ化されたLLMはクエリ推論のスループットを遅くし、オンラインデプロイメントリソースの需要を増大させる。本稿では,非常に軽量なクエリエンコーダを備えたLLMベースのハイブリッドレトリバーであるLightRetrieverを提案する。提案手法は文書エンコーディングのためのフルサイズのLLMを保っているが,クエリエンコーディングの負荷を埋め込んだルックアップに限らず削減する。 H800 GPU上でフルサイズのLLMを提供するのに比べ,GPUアクセラレーションによるクエリ推論では1000倍以上の高速化,GPUなしでは20倍の高速化を実現しています。大規模検索ベンチマーク実験により,本手法は多種多様な検索タスクを対象とし,平均95%の完全性能を維持した。

関連論文リスト

EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline [47.064685680644345]
実世界の検索システムは、文書が関係しているかどうかを暗黙的に判断するためにしばしば必要とされる。大規模言語モデル(LLM)は、それらの推論スキルを活用することで、そのような意味のある関連性を識別する大きな可能性を秘めている。本稿では,LLMをオフラインで使用して意味に富んだ検索指標を構築する検索手法であるEnrichIndexを紹介する。
論文参考訳（メタデータ） (2025-04-04T17:08:46Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization [9.739781953744606]
Open-Domain Multi-Document Summarization (ODMDS)は、ユーザクエリに応答して巨大なドキュメントコレクションから要約を生成するタスクである。 ODMDSタスクのオープンエンドクエリでは、従来の検索列サマリズアプローチは不足している。 ODMDSの軽量パス検索手法であるLightPALを提案する。
論文参考訳（メタデータ） (2024-06-18T10:57:27Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文参考訳（メタデータ） (2023-05-23T17:27:50Z)
Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文参考訳（メタデータ） (2023-04-27T14:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。