論文の概要: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.10009v1
- Date: Sat, 11 Oct 2025 04:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.734658
- Title: Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning
- Title(参考訳): 単一のクエリの制限を超えて: Reinforcement Learningでクエリ拡張のためにLLMをトレーニングする
- Authors: Shu Zhao, Tan Yu, Anbang Xu,
- Abstract要約: Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
- 参考スコア(独自算出の注目度): 23.104182075898297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
- Abstract(参考訳): Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
それでも、推論や検索の能力が限られているため、マルチホップのQAベンチマークのパフォーマンスは十分ではない。
複雑なクエリや複合クエリを扱うために、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
それぞれのターンで検索エージェントが複数のクエリー変種を提案し、同時に検索を行い、より関連性の高い情報をカバーする。
一方、学習後データや計算資源が限られているため、クエリ生成、検索情報理解、回答生成など、検索エージェントが複数のタスクをマスターすることは極めて困難である。
そこで本研究では,検索エージェントが検索した文書の理解を支援するために,事前学習したシュレッシャーモデルを組み込むことを提案し,検索エージェントが高い検索リコールのためのクエリ生成に集中できるようにする。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を示し,マルチホップQAベンチマークで最先端の精度を実現することができることがわかった。
具体的には,提案手法であるExpandSearchが,最先端のベースラインに比べて平均4.4%向上し,多様なエビデンスアグリゲーションを必要とするマルチホップ推論タスクに強い効果が得られたことを示す。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [4.817888539036794]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。