論文の概要: Query2doc: Query Expansion with Large Language Models
- arxiv url: http://arxiv.org/abs/2303.07678v1
- Date: Tue, 14 Mar 2023 07:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:09:04.781835
- Title: Query2doc: Query Expansion with Large Language Models
- Title(参考訳): Query2doc: 大きな言語モデルによるクエリ拡張
- Authors: Liang Wang, Nan Yang, Furu Wei
- Abstract要約: 提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
- 参考スコア(独自算出の注目度): 89.21083736712764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a simple yet effective query expansion approach,
denoted as query2doc, to improve both sparse and dense retrieval systems. The
proposed method first generates pseudo-documents by few-shot prompting large
language models (LLMs), and then expands the query with generated
pseudo-documents. LLMs are trained on web-scale text corpora and are adept at
knowledge memorization. The pseudo-documents from LLMs often contain highly
relevant information that can aid in query disambiguation and guide the
retrievers. Experimental results demonstrate that query2doc boosts the
performance of BM25 by 3% to 15% on ad-hoc IR datasets, such as MS-MARCO and
TREC DL, without any model fine-tuning. Furthermore, our method also benefits
state-of-the-art dense retrievers in terms of both in-domain and out-of-domain
results.
- Abstract(参考訳): 本稿では,sparse と dense の検索システムを改善するため,query2doc という単純なクエリ拡張手法を提案する。
提案手法はまず,大言語モデル (LLM) を数ショットで生成し,生成した擬似文書を用いてクエリを拡張する。
LLMはウェブスケールのテキストコーパスで訓練されており、知識記憶に長けている。
LLMからの擬似文書は、しばしば、不明瞭さをクエリし、レトリバーを導くのに役立つ非常に関連性の高い情報を含んでいる。
実験結果から,MS-MARCO や TREC DL などのアドホックな IR データセット上での BM25 の性能を 3% から 15% 向上させることができた。
さらに,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
関連論文リスト
- Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [71.98112450207368]
検証可能な生成は、大きな言語モデル(LLM)が対応する文書でテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval) を提案する。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion [41.21789597997263]
本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Large Language Models are Built-in Autoregressive Search Engines [19.928494069013485]
大規模言語モデル(LLM)は、人間の指示に従って文書検索用のURLを直接生成することができる。
LLMは、対応するドキュメントの90%近くが、オープンドメインの質問に対する正しい回答を含むWebURLを生成することができる。
論文 参考訳(メタデータ) (2023-05-16T17:04:48Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation [27.391814046104646]
擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリについて検討する。
QExt は文書構造によって擬似クエリを抽出し、また、TQGen は他の NLP タスクのために訓練された生成モデルを利用する。
実験により、個々の拡張法で訓練された高密度レトリバーは、複数の強いベースラインと相容れない性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。