論文の概要: A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications
- arxiv url: http://arxiv.org/abs/2510.16724v1
- Date: Sun, 19 Oct 2025 06:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.113714
- Title: A Comprehensive Survey on Reinforcement Learning-based Agentic Search: Foundations, Roles, Optimizations, Evaluations, and Applications
- Title(参考訳): 強化学習に基づくエージェント検索に関する総合的調査:基礎,役割,最適化,評価,応用
- Authors: Minhua Lin, Zongyu Wu, Zhichao Xu, Hui Liu, Xianfeng Tang, Qi He, Charu Aggarwal, Hui Liu, Xiang Zhang, Suhang Wang,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、モデル出力を外部のエビデンスに接地することで問題を緩和する。
エージェント検索の最近の進歩は、LLMが検索環境との多段階の相互作用を計画し、検索し、反映できるようにすることによって、これらの制限に対処している。
このパラダイムの中では、強化学習(RL)は適応的かつ自己改善的な探索行動のための強力なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 41.610769640632334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models (LLMs) has transformed information access and reasoning through open-ended natural language interaction. However, LLMs remain limited by static knowledge, factual hallucinations, and the inability to retrieve real-time or domain-specific information. Retrieval-Augmented Generation (RAG) mitigates these issues by grounding model outputs in external evidence, but traditional RAG pipelines are often single turn and heuristic, lacking adaptive control over retrieval and reasoning. Recent advances in agentic search address these limitations by enabling LLMs to plan, retrieve, and reflect through multi-step interaction with search environments. Within this paradigm, reinforcement learning (RL) offers a powerful mechanism for adaptive and self-improving search behavior. This survey provides the first comprehensive overview of \emph{RL-based agentic search}, organizing the emerging field along three complementary dimensions: (i) What RL is for (functional roles), (ii) How RL is used (optimization strategies), and (iii) Where RL is applied (scope of optimization). We summarize representative methods, evaluation protocols, and applications, and discuss open challenges and future directions toward building reliable and scalable RL driven agentic search systems. We hope this survey will inspire future research on the integration of RL and agentic search. Our repository is available at https://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papers.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、オープンな自然言語インタラクションを通じて情報アクセスと推論に変化をもたらした。
しかし、LSMは静的な知識、事実の幻覚、リアルタイムやドメイン固有の情報を検索できないことで制限されている。
Retrieval-Augmented Generation (RAG) は、モデル出力を外部の証拠に根拠付けることによってこれらの問題を緩和するが、従来のRAGパイプラインは単一のターンとヒューリスティックであり、検索と推論に対する適応制御が欠如している。
エージェント検索の最近の進歩は、LLMが検索環境との多段階の相互作用を計画し、検索し、反映できるようにすることによって、これらの制限に対処している。
このパラダイムの中では、強化学習(RL)は適応的かつ自己改善的な探索行動のための強力なメカニズムを提供する。
本調査は,3つの相補的な次元に沿って出現する分野を整理し,<emph{RL-based agentic search} について概観する。
(i)RLとは何か(機能的役割)
(二)RLの使用方法(最適化戦略)及び
三 RL を適用する場合(最適化のスコープ)
代表的手法,評価プロトコル,アプリケーションについて要約し,信頼性とスケーラブルなRL駆動型エージェント検索システム構築に向けたオープンな課題と今後の方向性について論じる。
この調査がRLとエージェント検索の統合に関する今後の研究を刺激することを期待している。
私たちのリポジトリはhttps://github.com/ventr1c/Awesome-RL-based-Agentic-Search-Papersで公開されています。
関連論文リスト
- Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - An Empirical Study on Reinforcement Learning for Reasoning-Search Interleaved LLM Agents [34.25887147052966]
強化学習(RL)は、現実世界の問題解決に複雑な推論が可能な大規模言語モデル(LLM)の訓練に強い可能性を示している。
最近では、RLを利用して、推論と検索エンジンの使用を巧みに組み合わせた高度なLLMベースの検索エージェントが作成されている。
1)報酬の定式化,(2)基礎となるLLMの選択と特性,(3)RLプロセスにおける検索エンジンの役割など,重要な要素はさらなる調査が必要である。
論文 参考訳(メタデータ) (2025-05-21T05:09:43Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。