論文の概要: Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion
- arxiv url: http://arxiv.org/abs/2510.09557v2
- Date: Mon, 13 Oct 2025 01:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.727597
- Title: Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion
- Title(参考訳): Doc2Query++:Topic-Coverageベースのドキュメント拡張とDual-Index FusionによるDense Retrievalへの応用
- Authors: Tzu-Lin Kuo, Wei-Ning Chiu, Wei-Yun Ma, Pu-Jen Cheng,
- Abstract要約: クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
- 参考スコア(独自算出の注目度): 8.523351031498839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document expansion (DE) via query generation tackles vocabulary mismatch in sparse retrieval, yet faces limitations: uncontrolled generation producing hallucinated or redundant queries with low diversity; poor generalization from in-domain training (e.g., MS MARCO) to out-of-domain data like BEIR; and noise from concatenation harming dense retrieval. While Large Language Models (LLMs) enable cross-domain query generation, basic prompting lacks control, and taxonomy-based methods rely on domain-specific structures, limiting applicability. To address these challenges, we introduce Doc2Query++, a DE framework that structures query generation by first inferring a document's latent topics via unsupervised topic modeling for cross-domain applicability, then using hybrid keyword selection to create a diverse and relevant keyword set per document. This guides LLM not only to leverage keywords, which ensure comprehensive topic representation, but also to reduce redundancy through diverse, relevant terms. To prevent noise from query appending in dense retrieval, we propose Dual-Index Fusion strategy that isolates text and query signals, boosting performance in dense settings. Extensive experiments show Doc2Query++ significantly outperforms state-of-the-art baselines, achieving substantial gains in MAP, nDCG@10 and Recall@100 across diverse datasets on both sparse and dense retrieval.
- Abstract(参考訳): クエリ生成によるドキュメント拡張(DE)は、スパース検索における語彙ミスマッチに対処するが、低多様性で幻覚的または冗長なクエリを生成する制御されていない生成、ドメイン内トレーニング(例えばMS MARCO)からBEIRのようなドメイン外データへの一般化の欠如、密検索を損なう結合によるノイズなど、制限に直面している。
大規模言語モデル(LLM)はドメイン間のクエリ生成を可能にするが、基本的なプロンプトは制御に欠けており、分類学的手法は適用性を制限するドメイン固有の構造に依存している。
これらの課題に対処するために、Doc2Query++は、ドキュメントの潜在トピックをドメイン間適用性のための教師なしトピックモデリングを通じて推論し、次にハイブリッドキーワード選択を使用してドキュメント毎に多様な関連キーワードセットを作成することで、クエリ生成を構造化するDEフレームワークである。
これにより、LLMはキーワードを活用するだけでなく、包括的なトピック表現を保証するとともに、多様で関連する用語による冗長性を低減することができる。
密集検索における雑音の付加を防止するため,テキストとクエリ信号を分離し,密集環境での性能を高めるDual-Index Fusion戦略を提案する。
大規模な実験の結果、Doc2Query++は最先端のベースラインを大幅に上回り、MAP、nDCG@10、Recall@100において、スパースとシークエンス検索の両方のさまざまなデータセットで大幅に向上している。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation [3.537921035534424]
マルチモーダルチャンククエリグラフ(MCQG)は、異種文書チャンクから意味的にリッチで応答可能なクエリを生成する。
このグラフに基づく構造は、選択的でクエリ中心の検索と構造化されたエビデンスアグリゲーションを可能にする。
データセットMMLongBench-DocとLongDocURLの実験では、MLDocRAGは検索品質と回答精度を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T20:29:10Z) - LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval [13.855117422052315]
LILaCは2つのコアイノベーションを特徴とするマルチモーダル検索フレームワークである。
まず,2つのレイヤにおけるマルチモーダル情報を明示的に表現した階層化コンポーネントグラフを提案する。
次に,遅延相互作用に基づくサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:55:48Z) - TCDE: Topic-Centric Dual Expansion of Queries and Documents with Large Language Models for Information Retrieval [9.300741539959278]
クエリとドキュメントの両方でトピック中心のエンリッチメントを実現するために,大規模言語モデルを活用する2つの拡張戦略であるTCDEを提案する。
TCDEでは、各クエリとドキュメントを処理するための2つの異なるプロンプトテンプレートを設計する。クエリ側では、各クエリ内で異なるサブトピックを識別し、各サブトピックに注目する擬似ドキュメントを生成する。
TREC Deep LearningとBEIRという2つの挑戦的なベンチマークの実験は、TCDEが最先端の強力な拡張ベースラインよりも大幅に改善されていることを実証している。
論文 参考訳(メタデータ) (2025-12-19T01:57:17Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Generator-Retriever-Generator Approach for Open-Domain Question Answering [18.950517545413813]
文書検索手法と大規模言語モデル(LLM)を組み合わせた新しい手法を提案する。
並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を検索する。
GRGは最先端のgenerator-then-readおよびrecovery-then-readパイプラインより優れている。
論文 参考訳(メタデータ) (2023-07-21T00:34:38Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。