論文の概要: Can Synthetic Query Rewrites Capture User Intent Better than Humans in Retrieval-Augmented Generation?
- arxiv url: http://arxiv.org/abs/2509.22325v1
- Date: Fri, 26 Sep 2025 13:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.451808
- Title: Can Synthetic Query Rewrites Capture User Intent Better than Humans in Retrieval-Augmented Generation?
- Title(参考訳): 検索型生成におけるユーザインテントの再現性は人間より優れているか?
- Authors: JiaYing Zheng, HaiNan Zhang, Liang Pang, YongXin Tong, ZhiMing Zheng,
- Abstract要約: マルチターンRAGシステムは、しばしば口語省略と曖昧な参照を伴うクエリに直面する。
アノテータの表現力の限界と理解の深さのため、手動で書き直したクエリは現実世界のRAGシステムで必要とされるものとは異なることが多い。
ユーザ意図に適合した高品質な合成リライトを生成するための合成データ駆動型クエリリライトモデルであるSynRewriteを提案する。
- 参考スコア(独自算出の注目度): 32.75334667566984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn RAG systems often face queries with colloquial omissions and ambiguous references, posing significant challenges for effective retrieval and generation. Traditional query rewriting relies on human annotators to clarify queries, but due to limitations in annotators' expressive ability and depth of understanding, manually rewritten queries often diverge from those needed in real-world RAG systems, resulting in a gap between user intent and system response. We observe that high-quality synthetic queries can better bridge this gap, achieving superior performance in both retrieval and generation compared to human rewrites. This raises an interesting question: Can rewriting models trained on synthetic queries better capture user intent than human annotators? In this paper, we propose SynRewrite, a synthetic data-driven query rewriting model to generate high-quality synthetic rewrites more aligned with user intent. To construct training data, we prompt GPT-4o with dialogue history, current queries, positive documents, and answers to synthesize high-quality rewrites. A Flan-T5 model is then finetuned on this dataset to map dialogue history and queries to synthetic rewrites. Finally, we further enhance the rewriter using the generator's feedback through the DPO algorithm to boost end-task performance. Experiments on TopiOCQA and QRECC datasets show that SynRewrite consistently outperforms human rewrites in both retrieval and generation tasks. Our results demonstrate that synthetic rewrites can serve as a scalable and effective alternative to human annotations.
- Abstract(参考訳): マルチターンRAGシステムは、しばしば単語の省略や曖昧な参照を伴うクエリに直面し、効率的な検索と生成に重大な課題を提起する。
従来のクエリ書き換えは、クエリを明確にするためにアノテータに依存するが、アノテータの表現能力と理解の深さの制限により、手動で書き直されたクエリは、現実のRAGシステムで必要とされるものとは異なることが多く、ユーザ意図とシステム応答のギャップが生じる。
高品質な合成クエリにより、このギャップを埋めることができ、人間の書き直しよりも検索と生成の両方で優れた性能が得られることを観察する。
合成クエリでトレーニングされたモデルを書き直すことは、人間のアノテータよりもユーザの意図を捉えることができるだろうか?
本稿では,ユーザ意図に適合した高品質な合成リライトを生成するための,合成データ駆動型クエリリライトモデルであるSynRewriteを提案する。
トレーニングデータを構築するために,対話履歴,現在のクエリ,肯定的なドキュメント,回答を伴ってGPT-4oを起動し,高品質な書き直しを合成する。
Flan-T5モデルは、対話履歴とクエリを合成書き直しにマップするために、このデータセットに微調整される。
最後に,DPOアルゴリズムによって生成元のフィードバックを用いてリライターをさらに強化し,エンドタスク性能を向上する。
TopiOCQAとQRECCデータセットの実験は、SynRewriteが検索と生成の両方のタスクにおいて、人間の書き直しを一貫して上回っていることを示している。
以上の結果から,合成書換えは人間のアノテーションに代わるスケーラブルで効果的な代替手段であることが示された。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。
会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T16:09:05Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversation [23.74712435991676]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成する言語モデルを最適化するように設計されている。
我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。
その結果,2つのベンチマークにおいて,従来のリライト・ザ・リトリーブ・アプローチの最先端性能を上回る優位性を示した。
論文 参考訳(メタデータ) (2024-02-19T04:41:31Z) - Enhancing Conversational Search: Large Language Model-Aided Informative
Query Rewriting [42.35788605017555]
本稿では,大規模言語モデル(LLM)をクエリリフレクタとして利用することを提案する。
精巧な書き直しのための4つの重要な特性を定義し、それら全てをインストラクションに組み込む。
初期クエリの書き直しが可能な場合, LLM の書き直しエディタの役割を導入し, "書き直し-テーマ-編集" プロセスを作成する。
論文 参考訳(メタデータ) (2023-10-15T03:04:17Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。