論文の概要: Rethinking On-policy Optimization for Query Augmentation
- arxiv url: http://arxiv.org/abs/2510.17139v1
- Date: Mon, 20 Oct 2025 04:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.301052
- Title: Rethinking On-policy Optimization for Query Augmentation
- Title(参考訳): クエリ拡張のためのオンライン最適化の再考
- Authors: Zhichao Xu, Shengyao Zhuang, Xueguang Ma, Bingsen Chen, Yijun Tian, Fengran Mo, Jie Cao, Vivek Srikumar,
- Abstract要約: 本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
- 参考スコア(独自算出の注目度): 49.87723664806526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to a surge of interest in query augmentation for information retrieval (IR). Two main approaches have emerged. The first prompts LLMs to generate answers or pseudo-documents that serve as new queries, relying purely on the model's parametric knowledge or contextual information. The second applies reinforcement learning (RL) to fine-tune LLMs for query rewriting, directly optimizing retrieval metrics. While having respective advantages and limitations, the two approaches have not been compared under consistent experimental conditions. In this work, we present the first systematic comparison of prompting-based and RL-based query augmentation across diverse benchmarks, including evidence-seeking, ad hoc, and tool retrieval. Our key finding is that simple, training-free query augmentation often performs on par with, or even surpasses, more expensive RL-based counterparts, especially when using powerful LLMs. Motivated by this discovery, we introduce a novel hybrid method, On-policy Pseudo-document Query Expansion (OPQE), which, instead of rewriting a query, the LLM policy learns to generate a pseudo-document that maximizes retrieval performance, thus merging the flexibility and generative structure of prompting with the targeted optimization of RL. We show OPQE outperforms both standalone prompting and RL-based rewriting, demonstrating that a synergistic approach yields the best results. Our implementation is made available to facilitate reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、情報検索(IR)のためのクエリ拡張への関心の高まりにつながっている。
2つの主要なアプローチが出現した。
1つ目はLCMに対して、モデルのパラメトリック知識やコンテキスト情報に純粋に依存して、新しいクエリとして機能する回答や擬似ドキュメントを生成するように促す。
2つ目は、クエリ書き換えのための微調整LDMに強化学習(RL)を適用し、検索メトリクスを直接最適化する。
それぞれの利点と限界はあるものの、2つのアプローチは一貫した実験条件下で比較されていない。
本研究では,エビデンス検索,アドホック,ツール検索など,さまざまなベンチマークを対象としたプロンプトベースおよびRLベースのクエリ拡張に関する最初の体系的比較を示す。
私たちの重要な発見は、単純でトレーニング不要なクエリ拡張が、特に強力なLLMを使用する場合、より高価なRLベースのクエリに匹敵する、あるいは超えていることです。
提案手法は,クエリを書き換える代わりに,検索性能を最大化する擬似文書を生成することを学習し,RLの目的とする最適化を促進させる柔軟性と生成構造を融合させる。
OPQEはスタンドアロンのプロンプトとRLベースの書き換えの両方で優れており、相乗的アプローチが最良の結果をもたらすことを示す。
私たちの実装は再現性を促進するために利用可能です。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - Aligned Query Expansion: Efficient Query Expansion for Information Retrieval through LLM Alignment [4.21943400140261]
Aligned Query Expansion (AQE) は、オープンドメイン質問応答における経路探索のためのクエリ拡張を強化する新しいアプローチである。
AQEはドメイン内およびドメイン外の両方でクエリ拡張のためのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-15T07:11:29Z) - Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning [22.495874056980824]
本稿では,Representation Learning and textbfReasoning empowered search-textbfAugmented textbfLarge textbfLanguage model textbfRecommendation (RALLRec+)を提案する。
論文 参考訳(メタデータ) (2025-03-26T11:03:34Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance [21.777817032607405]
大規模言語モデル(LLM)は、クエリ拡張による高密度検索の強化に有意な可能性を証明している。
本研究では,LLM拡張高密度検索フレームワークExpandRを提案する。
複数のベンチマーク実験の結果、ExpandRは強いベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-24T11:15:41Z) - GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval [20.807374287510623]
我々は,多種多様な意図を適応的に捉えるための生成クラスタリング・改革フレームワークGenCRFを提案する。
我々はGenCRFが,nDCG@10で従来のクエリ修正SOTAを最大12%上回り,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-17T05:59:32Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。