Fugu-MT 論文翻訳(概要): MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion

論文の概要: MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion

arxiv url: http://arxiv.org/abs/2310.19056v2
Date: Mon, 13 Nov 2023 15:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 19:48:54.620780
Title: MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion
Title（参考訳）: MILL: ゼロショットクエリ拡張のための大規模言語モデルによる相互検証
Authors: Pengyue Jia, Yiding Liu, Xiangyu Zhao, Xiaopeng Li, Changying Hao, Shuaiqiang Wang, Dawei Yin
Abstract要約: 本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
参考スコア（独自算出の注目度）: 41.21789597997263
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Query expansion is a commonly-used technique in many search systems to better represent users' information needs with additional query terms. Existing studies for this task usually propose to expand a query with retrieved or generated contextual documents. However, both types of methods have clear limitations. For retrieval-based methods, the documents retrieved with the original query might not be accurate enough to reveal the search intent, especially when the query is brief or ambiguous. For generation-based methods, existing models can hardly be trained or aligned on a particular corpus, due to the lack of corpus-specific labeled data. In this paper, we propose a novel Large Language Model (LLM) based mutual verification framework for query expansion, which alleviates the aforementioned limitations. Specifically, we first design a query-query-document generation pipeline, which can effectively leverage the contextual knowledge encoded in LLMs to generate sub-queries and corresponding documents from multiple perspectives. Next, we employ a mutual verification method for both generated and retrieved contextual documents, where 1) retrieved documents are filtered with the external contextual knowledge in generated documents, and 2) generated documents are filtered with the corpus-specific knowledge in retrieved documents. Overall, the proposed method allows retrieved and generated documents to complement each other to finalize a better query expansion. We conduct extensive experiments on three information retrieval datasets, i.e., TREC-DL-2020, TREC-COVID, and MSMARCO. The results demonstrate that our method outperforms other baselines significantly.
Abstract（参考訳）: クエリ拡張は、多くの検索システムにおいて、追加のクエリ用語でユーザの情報ニーズをより良く表現するための一般的なテクニックである。このタスクの既存の研究は通常、検索または生成されたコンテキスト文書でクエリを拡張することを提案する。しかし、どちらの方法にも明確な制限がある。検索に基づく手法では、元のクエリで検索した文書は、検索意図を明らかにするのに十分ではないかもしれない。ジェネレーションベースでは、コーパス固有のラベル付きデータがないため、既存のモデルは特定のコーパス上でトレーニングやアライメントがほとんどできない。本稿では,前述した制限を緩和するクエリ拡張のための,新しい大規模言語モデル(llm)ベースの相互検証フレームワークを提案する。具体的には、LLMに符号化されたコンテキスト知識を効果的に活用し、複数の視点からサブクエリと対応するドキュメントを生成するクエリクエリ文書生成パイプラインを設計する。次に,生成文書と検索文書の両方に対して相互検証手法を適用した。 1)検索された文書は、生成された文書の外部の文脈知識でフィルタリングされ、 2) 得られた文書のコーパス固有の知識で生成された文書をフィルタリングする。提案手法により,検索された文書と生成した文書が相互に補完され,より優れたクエリ拡張が達成される。本稿では,TREC-DL-2020,TREC-COVID,MSMARCOの3つの情報検索データセットについて広範な実験を行った。その結果,本手法は他のベースラインよりも優れていた。

関連論文リスト

Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。 BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文参考訳（メタデータ） (2025-09-08T10:58:42Z)
Aligned Query Expansion: Efficient Query Expansion for Information Retrieval through LLM Alignment [4.21943400140261]
Aligned Query Expansion (AQE) は、オープンドメイン質問応答における経路探索のためのクエリ拡張を強化する新しいアプローチである。 AQEはドメイン内およびドメイン外の両方でクエリ拡張のためのベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-07-15T07:11:29Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
LLM4Ranking: An Easy-to-use Framework of Utilizing Large Language Models for Document Reranking [15.060195612587805]
我々は,オープンソースやクローズドソースのAPIベースのLCMを用いて,ユーザが異なるランキング手法を適用可能な統一フレームワークである textbfLLM4Ranking を導入する。我々のフレームワークは、LLMで文書を再ランク付けするためのシンプルでインターフェイスを提供し、また、このタスクの使い易い評価と微調整スクリプトを提供する。
論文参考訳（メタデータ） (2025-04-10T04:08:38Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文参考訳（メタデータ） (2025-02-11T03:25:42Z)
Improving Tool Retrieval by Leveraging Large Language Models for Query Generation [16.7926347207647]
コンテキスト内学習は、プロンプトで関連するツールの短いリストを提供することができる。本稿では,Large Language Models (LLM) を用いて検索クエリを生成することを提案する。生成されたクエリは埋め込みされ、最も近い隣の検索を通じて最も関連性の高いツールを見つけるために使用される。
論文参考訳（メタデータ） (2024-11-17T03:02:09Z)
Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-06T12:54:27Z)
Zero-Shot Dense Retrieval with Embeddings from Relevance Feedback [17.986392250269606]
Relevance Feedback (ReDE-RF) による実文書埋め込みについて紹介する。 ReDE-RFは、関連性フィードバックにインスパイアされて、関連性推定タスクとして仮説文書生成を再構成することを提案する。実験の結果,ReDE-RFは最先端のゼロショット高密度検索手法を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-28T17:40:40Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
Progressive Query Expansion for Retrieval Over Cost-constrained Data Sources [6.109188517569139]
ProQEはプログレッシブなクエリ拡張アルゴリズムで、より多くのドキュメントを取得すると、クエリを反復的に拡張する。その結果, ProQEは最先端のベースラインを37%上回り, 費用対効果が最も高いことがわかった。
論文参考訳（メタデータ） (2024-06-11T10:30:19Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文参考訳（メタデータ） (2024-03-08T11:09:13Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。