論文の概要: ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.15776v1
- Date: Wed, 21 May 2025 17:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.801063
- Title: ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
- Title(参考訳): ConvSearch-R1:強化学習による推論による対話型検索のためのクエリ再構成の強化
- Authors: Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu,
- Abstract要約: 本稿では、強化学習を活用して外部リライト管理に依存しないフレームワークであるConvSearch-R1を提案する。
新たな2段階のアプローチは,検索誘導型自己蒸留によるコールドスタート問題に対処するために,セルフ駆動型ポリシーウォームアップと,従来型の検索指標における疎度問題に対処する特別に設計されたランクインセンティブ報酬形成機構を備えた検索誘導型強化学習を組み合わせたものである。
- 参考スコア(独自算出の注目度): 45.37734114816888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational search systems require effective handling of context-dependent queries that often contain ambiguity, omission, and coreference. Conversational Query Reformulation (CQR) addresses this challenge by transforming these queries into self-contained forms suitable for off-the-shelf retrievers. However, existing CQR approaches suffer from two critical constraints: high dependency on costly external supervision from human annotations or large language models, and insufficient alignment between the rewriting model and downstream retrievers. We present ConvSearch-R1, the first self-driven framework that completely eliminates dependency on external rewrite supervision by leveraging reinforcement learning to optimize reformulation directly through retrieval signals. Our novel two-stage approach combines Self-Driven Policy Warm-Up to address the cold-start problem through retrieval-guided self-distillation, followed by Retrieval-Guided Reinforcement Learning with a specially designed rank-incentive reward shaping mechanism that addresses the sparsity issue in conventional retrieval metrics. Extensive experiments on TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly outperforms previous state-of-the-art methods, achieving over 10% improvement on the challenging TopiOCQA dataset while using smaller 3B parameter models without any external supervision.
- Abstract(参考訳): 会話型検索システムは、あいまいさ、省略性、コア参照を含む文脈依存クエリを効果的に扱う必要がある。
Conversational Query Reformulation (CQR)は、これらのクエリを、既製のレトリバーに適した自己完結型に変換することで、この問題に対処する。
しかし、既存のCQRアプローチは、人間のアノテーションや大きな言語モデルからの高価な外部監視への高い依存と、書き換えモデルと下流レトリバーとの整合性の不足という2つの重要な制約に悩まされている。
ConvSearch-R1は、強化学習を活用して、検索信号を介して直接リフォームを最適化することにより、外部リライト管理への依存を完全に解消する最初の自己駆動型フレームワークである。
新たな2段階のアプローチは,検索誘導型自己蒸留によるコールドスタート問題に対処するために,セルフ駆動型ポリシーウォームアップと,従来型の検索指標における疎度問題に対処する特別に設計されたランクインセンティブ報酬形成機構を備えた検索誘導型強化学習を組み合わせたものである。
TopiOCQAデータセットとQReCCデータセットの大規模な実験によると、ConvSearch-R1は従来の最先端の手法よりも大幅に優れており、外部監視なしで小さな3Bパラメータモデルを使用しながら、挑戦的なTopiOCQAデータセットを10%以上改善している。
関連論文リスト
- Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - AdaCQR: Enhancing Query Reformulation for Conversational Search via Sparse and Dense Retrieval Alignment [16.62505706601199]
本稿では,対話型検索再構成のための新しいフレームワークAdaCQRを提案する。
AdaCQRは、情報検索クエリの一般化性を向上させる。
TopiOCQAとQReCCデータセットの実験結果は、AdaCQRが既存のメソッドをより効率的なフレームワークで上回ることを示した。
論文 参考訳(メタデータ) (2024-07-02T05:50:16Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Conversational Query Rewriting with Self-supervised Learning [36.392717968127016]
Conversational Query Rewriting (CQR) は、会話クエリを自己完結した発話に明示的に書き換えることによって、マルチターン対話を単一ターン問題に単純化することを目的としている。
既存のアプローチは、アノテートに労働集約的な大規模な教師付きトレーニングデータに依存している。
我々は,人間のアノテーションを必要としない自己教師付き学習により,大規模CQRデータセットを自動構築することを提案する。
論文 参考訳(メタデータ) (2021-02-09T08:57:53Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。