論文の概要: Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion
- arxiv url: http://arxiv.org/abs/2510.09557v2
- Date: Mon, 13 Oct 2025 01:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.727597
- Title: Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion
- Title(参考訳): Doc2Query++:Topic-Coverageベースのドキュメント拡張とDual-Index FusionによるDense Retrievalへの応用
- Authors: Tzu-Lin Kuo, Wei-Ning Chiu, Wei-Yun Ma, Pu-Jen Cheng,
- Abstract要約: クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
- 参考スコア(独自算出の注目度): 8.523351031498839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document expansion (DE) via query generation tackles vocabulary mismatch in sparse retrieval, yet faces limitations: uncontrolled generation producing hallucinated or redundant queries with low diversity; poor generalization from in-domain training (e.g., MS MARCO) to out-of-domain data like BEIR; and noise from concatenation harming dense retrieval. While Large Language Models (LLMs) enable cross-domain query generation, basic prompting lacks control, and taxonomy-based methods rely on domain-specific structures, limiting applicability. To address these challenges, we introduce Doc2Query++, a DE framework that structures query generation by first inferring a document's latent topics via unsupervised topic modeling for cross-domain applicability, then using hybrid keyword selection to create a diverse and relevant keyword set per document. This guides LLM not only to leverage keywords, which ensure comprehensive topic representation, but also to reduce redundancy through diverse, relevant terms. To prevent noise from query appending in dense retrieval, we propose Dual-Index Fusion strategy that isolates text and query signals, boosting performance in dense settings. Extensive experiments show Doc2Query++ significantly outperforms state-of-the-art baselines, achieving substantial gains in MAP, nDCG@10 and Recall@100 across diverse datasets on both sparse and dense retrieval.
- Abstract(参考訳): クエリ生成によるドキュメント拡張(DE)は、スパース検索における語彙ミスマッチに対処するが、低多様性で幻覚的または冗長なクエリを生成する制御されていない生成、ドメイン内トレーニング(例えばMS MARCO)からBEIRのようなドメイン外データへの一般化の欠如、密検索を損なう結合によるノイズなど、制限に直面している。
大規模言語モデル(LLM)はドメイン間のクエリ生成を可能にするが、基本的なプロンプトは制御に欠けており、分類学的手法は適用性を制限するドメイン固有の構造に依存している。
これらの課題に対処するために、Doc2Query++は、ドキュメントの潜在トピックをドメイン間適用性のための教師なしトピックモデリングを通じて推論し、次にハイブリッドキーワード選択を使用してドキュメント毎に多様な関連キーワードセットを作成することで、クエリ生成を構造化するDEフレームワークである。
これにより、LLMはキーワードを活用するだけでなく、包括的なトピック表現を保証するとともに、多様で関連する用語による冗長性を低減することができる。
密集検索における雑音の付加を防止するため,テキストとクエリ信号を分離し,密集環境での性能を高めるDual-Index Fusion戦略を提案する。
大規模な実験の結果、Doc2Query++は最先端のベースラインを大幅に上回り、MAP、nDCG@10、Recall@100において、スパースとシークエンス検索の両方のさまざまなデータセットで大幅に向上している。
関連論文リスト
- Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Generator-Retriever-Generator Approach for Open-Domain Question Answering [18.950517545413813]
文書検索手法と大規模言語モデル(LLM)を組み合わせた新しい手法を提案する。
並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。
GRGは最先端のgenerator-then-readおよびrecovery-then-readパイプラインより優れている。
論文 参考訳(メタデータ) (2023-07-21T00:34:38Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。