論文の概要: Rethinking On-policy Optimization for Query Augmentation
- arxiv url: http://arxiv.org/abs/2510.17139v1
- Date: Mon, 20 Oct 2025 04:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.301052
- Title: Rethinking On-policy Optimization for Query Augmentation
- Title(参考訳): クエリ拡張のためのオンライン最適化の再考
- Authors: Zhichao Xu, Shengyao Zhuang, Xueguang Ma, Bingsen Chen, Yijun Tian, Fengran Mo, Jie Cao, Vivek Srikumar,
- Abstract要約: 本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
- 参考スコア(独自算出の注目度): 49.87723664806526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to a surge of interest in query augmentation for information retrieval (IR). Two main approaches have emerged. The first prompts LLMs to generate answers or pseudo-documents that serve as new queries, relying purely on the model's parametric knowledge or contextual information. The second applies reinforcement learning (RL) to fine-tune LLMs for query rewriting, directly optimizing retrieval metrics. While having respective advantages and limitations, the two approaches have not been compared under consistent experimental conditions. In this work, we present the first systematic comparison of prompting-based and RL-based query augmentation across diverse benchmarks, including evidence-seeking, ad hoc, and tool retrieval. Our key finding is that simple, training-free query augmentation often performs on par with, or even surpasses, more expensive RL-based counterparts, especially when using powerful LLMs. Motivated by this discovery, we introduce a novel hybrid method, On-policy Pseudo-document Query Expansion (OPQE), which, instead of rewriting a query, the LLM policy learns to generate a pseudo-document that maximizes retrieval performance, thus merging the flexibility and generative structure of prompting with the targeted optimization of RL. We show OPQE outperforms both standalone prompting and RL-based rewriting, demonstrating that a synergistic approach yields the best results. Our implementation is made available to facilitate reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、情報検索(IR)のためのクエリ拡張への関心の高まりにつながっている。
2つの主要なアプローチが出現した。
1つ目はLCMに対して、モデルのパラメトリック知識やコンテキスト情報に純粋に依存して、新しいクエリとして機能する回答や擬似ドキュメントを生成するように促す。
2つ目は、クエリ書き換えのための微調整LDMに強化学習(RL)を適用し、検索メトリクスを直接最適化する。
それぞれの利点と限界はあるものの、2つのアプローチは一貫した実験条件下で比較されていない。
本研究では,エビデンス検索,アドホック,ツール検索など,さまざまなベンチマークを対象としたプロンプトベースおよびRLベースのクエリ拡張に関する最初の体系的比較を示す。
私たちの重要な発見は、単純でトレーニング不要なクエリ拡張が、特に強力なLLMを使用する場合、より高価なRLベースのクエリに匹敵する、あるいは超えていることです。
提案手法は,クエリを書き換える代わりに,検索性能を最大化する擬似文書を生成することを学習し,RLの目的とする最適化を促進させる柔軟性と生成構造を融合させる。
OPQEはスタンドアロンのプロンプトとRLベースの書き換えの両方で優れており、相乗的アプローチが最良の結果をもたらすことを示す。
私たちの実装は再現性を促進するために利用可能です。
関連論文リスト
- Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning [22.495874056980824]
本稿では,Representation Learning and textbfReasoning empowered search-textbfAugmented textbfLarge textbfLanguage model textbfRecommendation (RALLRec+)を提案する。
論文 参考訳(メタデータ) (2025-03-26T11:03:34Z) - ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance [21.777817032607405]
大規模言語モデル(LLM)は、クエリ拡張による高密度検索の強化に有意な可能性を証明している。
本研究では,LLM拡張高密度検索フレームワークExpandRを提案する。
複数のベンチマーク実験の結果、ExpandRは強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-24T11:15:41Z) - GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval [20.807374287510623]
我々は,多種多様な意図を適応的に捉えるための生成クラスタリング・改革フレームワークGenCRFを提案する。
我々はGenCRFが,nDCG@10で従来のクエリ修正SOTAを最大12%上回り,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-17T05:59:32Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。