論文の概要: MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion
- arxiv url: http://arxiv.org/abs/2310.19056v2
- Date: Mon, 13 Nov 2023 15:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:48:54.620780
- Title: MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion
- Title(参考訳): MILL: ゼロショットクエリ拡張のための大規模言語モデルによる相互検証
- Authors: Pengyue Jia, Yiding Liu, Xiangyu Zhao, Xiaopeng Li, Changying Hao,
Shuaiqiang Wang, Dawei Yin
- Abstract要約: 本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
- 参考スコア(独自算出の注目度): 41.21789597997263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query expansion is a commonly-used technique in many search systems to better
represent users' information needs with additional query terms. Existing
studies for this task usually propose to expand a query with retrieved or
generated contextual documents. However, both types of methods have clear
limitations. For retrieval-based methods, the documents retrieved with the
original query might not be accurate enough to reveal the search intent,
especially when the query is brief or ambiguous. For generation-based methods,
existing models can hardly be trained or aligned on a particular corpus, due to
the lack of corpus-specific labeled data. In this paper, we propose a novel
Large Language Model (LLM) based mutual verification framework for query
expansion, which alleviates the aforementioned limitations. Specifically, we
first design a query-query-document generation pipeline, which can effectively
leverage the contextual knowledge encoded in LLMs to generate sub-queries and
corresponding documents from multiple perspectives. Next, we employ a mutual
verification method for both generated and retrieved contextual documents,
where 1) retrieved documents are filtered with the external contextual
knowledge in generated documents, and 2) generated documents are filtered with
the corpus-specific knowledge in retrieved documents. Overall, the proposed
method allows retrieved and generated documents to complement each other to
finalize a better query expansion. We conduct extensive experiments on three
information retrieval datasets, i.e., TREC-DL-2020, TREC-COVID, and MSMARCO.
The results demonstrate that our method outperforms other baselines
significantly.
- Abstract(参考訳): クエリ拡張は、多くの検索システムにおいて、追加のクエリ用語でユーザの情報ニーズをより良く表現するための一般的なテクニックである。
このタスクの既存の研究は通常、検索または生成されたコンテキスト文書でクエリを拡張することを提案する。
しかし、どちらの方法にも明確な制限がある。
検索に基づく手法では、元のクエリで検索した文書は、検索意図を明らかにするのに十分ではないかもしれない。
ジェネレーションベースでは、コーパス固有のラベル付きデータがないため、既存のモデルは特定のコーパス上でトレーニングやアライメントがほとんどできない。
本稿では,前述した制限を緩和するクエリ拡張のための,新しい大規模言語モデル(llm)ベースの相互検証フレームワークを提案する。
具体的には、LLMに符号化されたコンテキスト知識を効果的に活用し、複数の視点からサブクエリと対応するドキュメントを生成するクエリクエリ文書生成パイプラインを設計する。
次に,生成文書と検索文書の両方に対して相互検証手法を適用した。
1)検索された文書は、生成された文書の外部の文脈知識でフィルタリングされ、
2) 得られた文書のコーパス固有の知識で生成された文書をフィルタリングする。
提案手法により,検索された文書と生成した文書が相互に補完され,より優れたクエリ拡張が達成される。
本稿では,TREC-DL-2020,TREC-COVID,MSMARCOの3つの情報検索データセットについて広範な実験を行った。
その結果,本手法は他のベースラインよりも優れていた。
関連論文リスト
- Novel Dual-Generator Framework for Open-Domain Question Answering [22.38752607461632]
本稿では,高度な大規模言語モデル(LLM)と文書検索戦略の相乗化を目的とした,GRG(Generator-Retriever-Generator)と呼ばれる革新的な手法を提案する。
GRGモデルは、ジェネレーション・then-readや検索・then-readフレームワークを含む既存の最先端の方法論を明らかに超えている。
論文 参考訳(メタデータ) (2023-07-21T00:34:38Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。