論文の概要: ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting
- arxiv url: http://arxiv.org/abs/2603.01417v1
- Date: Mon, 02 Mar 2026 03:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.669359
- Title: ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting
- Title(参考訳): ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting
- Authors: Jiyoon Myung, Jungki Son, Kyungro Lee, Jihyeon Park, Joohyung Han,
- Abstract要約: 検索システムは、ユーザクエリがドメイン文書で使用される言語とスタイリスティックまたは意味的に異なるときに失敗することが多い。
この研究は、データ中心の情報検索における新たな方向性を強調し、フィードバックループとドキュメントスタイルのアライメントがRAGシステムの推論と適応性をいかに高めるかを強調した。
- 参考スコア(独自算出の注目度): 0.4077787659104315
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval systems often fail when user queries differ stylistically or semantically from the language used in domain documents. Query rewriting has been proposed to bridge this gap, improving retrieval by reformulating user queries into semantically equivalent forms. However, most existing approaches overlook the stylistic characteristics of target documents-their domain-specific phrasing, tone, and structure-which are crucial for matching real-world data distributions. We introduce a retrieval feedback-driven dataset generation framework that automatically identifies failed retrieval cases, leverages large language models to rewrite queries in the style of relevant documents, and verifies improvement through re-retrieval. The resulting corpus of (original, rewritten) query pairs enables the training of rewriter models that are explicitly aware of document style and retrieval feedback. This work highlights a new direction in data-centric information retrieval, emphasizing how feedback loops and document-style alignment can enhance the reasoning and adaptability of RAG systems in real-world, domain-specific contexts.
- Abstract(参考訳): 検索システムは、ユーザクエリがドメイン文書で使用される言語とスタイリスティックまたは意味的に異なるときに失敗することが多い。
このギャップを埋めるため、クエリ書き換えが提案されており、ユーザクエリを意味論的に等価な形式にすることで、検索を改善している。
しかし、既存のほとんどのアプローチは、ドメイン固有のフレーズ、トーン、構造といった、実際のデータ分布の整合に欠かせない、ターゲット文書の形式的特徴を見落としている。
検索フィードバック駆動型データセット生成フレームワークを導入し,検索失敗事例を自動的に識別し,大規模言語モデルを用いて関連文書のスタイルでクエリを書き換え,再検索による改善の検証を行う。
結果として得られたコーパス(元来は書き直された)クエリペアは、文書スタイルと検索フィードバックを明確に認識したリライターモデルのトレーニングを可能にする。
この研究は、データ中心の情報検索における新たな方向性を強調し、フィードバックループとドキュメントスタイルのアライメントが、現実のドメイン固有のコンテキストにおいてRAGシステムの推論と適応性をいかに高めるかを強調している。
関連論文リスト
- Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG [1.4425299138308667]
BM25の文書は、コーパスレベルの重み付けと重なり合う。
大規模なクエリドキュメントデータセットでトレーニングされたエンドツーエンドのマルチモーダルレトリバーは、これらのアプローチよりも大幅に改善されている。
より優れたドキュメント表現がベンチマーク改善の原動力であることを実証する。
論文 参考訳(メタデータ) (2026-03-04T16:21:20Z) - Generalized Pseudo-Relevance Feedback [29.669164314207947]
textit Generalized Pseudo Relevance Feedback (GPRF)
GPRFは、検索した文書に基づいて、モデルフリーで自然言語の書き直しを行う。
複数のベンチマークとレトリバーによる実験は、GPRFが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-29T13:08:35Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - MURR: Model Updating with Regularized Replay for Searching a Document Stream [32.0637790321157]
インターネットは、新しいドキュメントとユーザ生成クエリの連続ストリームを生成する。
クエリとドキュメントのペアの固定セットで一度トレーニングされたニューラル検索モデルは、新しく作成されたコンテンツを誤って表現し始める。
本稿では,正規化リプレイによるモデル更新戦略であるMURRを提案する。
論文 参考訳(メタデータ) (2025-04-14T14:13:03Z) - Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - Counterfactual Query Rewriting to Use Historical Relevance Feedback [25.893083499927776]
本稿では,ユーザクエリの書き直し手法を提案する。
関連文書から抽出された用語でクエリを拡張するか、あるいは、関連文書を現在のコーパスの上位にランク付けするいわゆるキークエリを導出する。
CLEF LongEvalのシナリオでは、履歴関連フィードバックによるクエリの書き直しにより、検索効率が向上し、計算コストの高いトランスフォーマーベースのアプローチよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-02-06T09:05:41Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - Generative Query Reformulation Using Ensemble Prompting, Document Fusion, and Relevance Feedback [8.661419320202787]
GenQREnsembleとGenQRFusionはゼロショット命令のパラフレーズを利用して複数のキーワードセットを生成し、検索性能を向上させる。
検索前設定ではnDCG@10で最大18%,検索後設定では9%の精度で検索効率を向上できることを示す。
論文 参考訳(メタデータ) (2024-05-27T21:03:26Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。