論文の概要: LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference
- arxiv url: http://arxiv.org/abs/2505.12260v2
- Date: Sun, 22 Jun 2025 07:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.309952
- Title: LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference
- Title(参考訳): LightRetriever: 1000倍高速クエリ推論を備えたLLMベースのハイブリッド検索アーキテクチャ
- Authors: Guangyuan Ma, Yongliang Ma, Xuanrui Gou, Zhenpeng Su, Ming Zhou, Songlin Hu,
- Abstract要約: 大規模言語モデル(LLM)に基づくハイブリッド検索では、LLMを用いてクエリやドキュメントを低次元の密度あるいは高次元のスパースベクトルにエンコードする。
超軽量なクエリエンコーダを備えたLLMベースのハイブリッドレトリバーであるLightRetrieverを提案する。
- 参考スコア(独自算出の注目度): 31.040756207765796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs)-based hybrid retrieval uses LLMs to encode queries and documents into low-dimensional dense or high-dimensional sparse vectors. It retrieves documents relevant to search queries based on vector similarities. Documents are pre-encoded offline, while queries arrive in real-time, necessitating an efficient online query encoder. Although LLMs significantly enhance retrieval capabilities, serving deeply parameterized LLMs slows down query inference throughput and increases demands for online deployment resources. In this paper, we propose LightRetriever, a novel LLM-based hybrid retriever with extremely lightweight query encoders. Our method retains a full-sized LLM for document encoding, but reduces the workload of query encoding to no more than an embedding lookup. Compared to serving a full-sized LLM on an H800 GPU, our approach achieves over a 1000x speedup for query inference with GPU acceleration, and even a 20x speedup without GPU. Experiments on large-scale retrieval benchmarks demonstrate that our method generalizes well across diverse retrieval tasks, retaining an average of 95% full-sized performance.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくハイブリッド検索では、LLMを用いてクエリやドキュメントを低次元の密度あるいは高次元のスパースベクトルにエンコードする。
ベクトル類似性に基づいて検索クエリに関連するドキュメントを検索する。
ドキュメントはオフラインで事前エンコードされ、クエリはリアルタイムで到着し、効率的なオンラインクエリエンコーダを必要とする。
LLMは検索機能を大幅に強化するが、深くパラメータ化されたLLMはクエリ推論のスループットを遅くし、オンラインデプロイメントリソースの需要を増大させる。
本稿では,非常に軽量なクエリエンコーダを備えたLLMベースのハイブリッドレトリバーであるLightRetrieverを提案する。
提案手法は文書エンコーディングのためのフルサイズのLLMを保っているが,クエリエンコーディングの負荷を埋め込んだルックアップに限らず削減する。
H800 GPU上でフルサイズのLLMを提供するのに比べ,GPUアクセラレーションによるクエリ推論では1000倍以上の高速化,GPUなしでは20倍の高速化を実現しています。
大規模検索ベンチマーク実験により,本手法は多種多様な検索タスクを対象とし,平均95%の完全性能を維持した。
関連論文リスト
- EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline [47.064685680644345]
実世界の検索システムは、文書が関係しているかどうかを暗黙的に判断するためにしばしば必要とされる。
大規模言語モデル(LLM)は、それらの推論スキルを活用することで、そのような意味のある関連性を識別する大きな可能性を秘めている。
本稿では,LLMをオフラインで使用して意味に富んだ検索指標を構築する検索手法であるEnrichIndexを紹介する。
論文 参考訳(メタデータ) (2025-04-04T17:08:46Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。