論文の概要: TCDE: Topic-Centric Dual Expansion of Queries and Documents with Large Language Models for Information Retrieval
- arxiv url: http://arxiv.org/abs/2512.17164v1
- Date: Fri, 19 Dec 2025 01:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.216593
- Title: TCDE: Topic-Centric Dual Expansion of Queries and Documents with Large Language Models for Information Retrieval
- Title(参考訳): TCDE:情報検索のための大規模言語モデルによるクエリとドキュメントのトピック中心のデュアル展開
- Authors: Yu Yang, Feng Tian, Ping Chen,
- Abstract要約: クエリとドキュメントの両方でトピック中心のエンリッチメントを実現するために,大規模言語モデルを活用する2つの拡張戦略であるTCDEを提案する。
TCDEでは、各クエリとドキュメントを処理するための2つの異なるプロンプトテンプレートを設計する。クエリ側では、各クエリ内で異なるサブトピックを識別し、各サブトピックに注目する擬似ドキュメントを生成する。
TREC Deep LearningとBEIRという2つの挑戦的なベンチマークの実験は、TCDEが最先端の強力な拡張ベースラインよりも大幅に改善されていることを実証している。
- 参考スコア(独自算出の注目度): 9.300741539959278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query Expansion (QE) enriches queries and Document Expansion (DE) enriches documents, and these two techniques are often applied separately. However, such separate application may lead to semantic misalignment between the expanded queries (or documents) and their relevant documents (or queries). To address this serious issue, we propose TCDE, a dual expansion strategy that leverages large language models (LLMs) for topic-centric enrichment on both queries and documents. In TCDE, we design two distinct prompt templates for processing each query and document. On the query side, an LLM is guided to identify distinct sub-topics within each query and generate a focused pseudo-document for each sub-topic. On the document side, an LLM is guided to distill each document into a set of core topic sentences. The resulting outputs are used to expand the original query and document. This topic-centric dual expansion process establishes semantic bridges between queries and their relevant documents, enabling better alignment for downstream retrieval models. Experiments on two challenging benchmarks, TREC Deep Learning and BEIR, demonstrate that TCDE achieves substantial improvements over strong state-of-the-art expansion baselines. In particular, on dense retrieval tasks, it outperforms several state-of-the-art methods, with a relative improvement of 2.8\% in NDCG@10 on the SciFact dataset. Experimental results validate the effectiveness of our topic-centric and dual expansion strategy.
- Abstract(参考訳): クエリ拡張(QE)はクエリを豊かにし、ドキュメント拡張(DE)はドキュメントを豊かにする。
しかし、このような分離されたアプリケーションは、拡張されたクエリ(またはドキュメント)と関連するドキュメント(またはクエリ)とのセマンティックなミスアライメントにつながる可能性がある。
この問題に対処するため,大規模言語モデル(LLM)を活用し,問合せおよび文書のトピック中心のエンリッチメントを実現する2つの拡張戦略であるTCDEを提案する。
TCDEでは、各クエリとドキュメントを処理する2つの異なるプロンプトテンプレートを設計する。
クエリ側では、LLMがガイドされ、クエリ毎に異なるサブトピックを特定し、サブトピック毎に集中した擬似ドキュメントを生成する。
文書側では、LCMがガイドされ、各文書をコアトピック文のセットに蒸留する。
結果の出力は、元のクエリとドキュメントを拡張するために使用される。
このトピック中心の二重展開プロセスは、クエリとその関連ドキュメント間のセマンティックブリッジを確立し、下流の検索モデルのアライメントを改善する。
TREC Deep LearningとBEIRという2つの挑戦的なベンチマークの実験は、TCDEが最先端の強力な拡張ベースラインよりも大幅に改善されていることを実証している。
特に、密度の高い検索タスクでは、SciFactデータセット上でのNDCG@10の相対的な改善により、最先端のいくつかの手法よりも優れている。
実験の結果,話題中心および二重展開戦略の有効性が検証された。
関連論文リスト
- Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion [8.523351031498839]
クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:07:48Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。