論文の概要: SSRL: Self-Search Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.10874v1
- Date: Thu, 14 Aug 2025 17:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.438726
- Title: SSRL: Self-Search Reinforcement Learning
- Title(参考訳): SSRL: 自己探索強化学習
- Authors: Yuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou,
- Abstract要約: 大規模言語モデル(LLM)の固有探索能力を定量化する。
本稿では,SSRL(Self-Search RL)を導入した。
実証的な評価により,SSRL学習政策モデルは,検索駆動型RL学習のための費用対効果と安定した環境を提供することが示された。
- 参考スコア(独自算出の注目度): 37.21683758480754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the potential of large language models (LLMs) to serve as efficient simulators for agentic search tasks in reinforcement learning (RL), thereby reducing dependence on costly interactions with external search engines. To this end, we first quantify the intrinsic search capability of LLMs via structured prompting and repeated sampling, which we term Self-Search. Our results reveal that LLMs exhibit strong scaling behavior with respect to the inference budget, achieving high pass@k on question-answering benchmarks, including the challenging BrowseComp task. Building on these observations, we introduce Self-Search RL (SSRL), which enhances LLMs' Self-Search capability through format-based and rule-based rewards. SSRL enables models to iteratively refine their knowledge utilization internally, without requiring access to external tools. Empirical evaluations demonstrate that SSRL-trained policy models provide a cost-effective and stable environment for search-driven RL training, reducing reliance on external search engines and facilitating robust sim-to-real transfer. We draw the following conclusions: 1) LLMs possess world knowledge that can be effectively elicited to achieve high performance; 2) SSRL demonstrates the potential of leveraging internal knowledge to reduce hallucination; 3) SSRL-trained models integrate seamlessly with external search engines without additional effort. Our findings highlight the potential of LLMs to support more scalable RL agent training.
- Abstract(参考訳): 大規模言語モデル(LLM)が強化学習(RL)におけるエージェント探索タスクの効率的なシミュレータとして機能する可能性を検討する。
そこで我々はまず,構造化されたプロンプトと繰り返しサンプリングにより,LLMの本質的な探索能力を定量化し,これをSelf-Searchと呼ぶ。
この結果から,LLM は,BrowseComp タスクを含む質問応答ベンチマークにおいて高いパス@k を達成し,推論予算に対して高いスケーリング挙動を示すことが明らかとなった。
これらの観測結果に基づいて,LLMの自己探索能力を向上させる自己探索RL(SSRL)を導入する。
SSRLは、外部ツールへのアクセスを必要とせずに、モデルが内部で知識利用を反復的に改善することを可能にする。
実証的な評価は、SSRL訓練されたポリシーモデルが、検索駆動RLトレーニングのコスト効率と安定した環境を提供し、外部検索エンジンへの依存を減らし、堅牢なsim-to-real転送を容易にすることを示している。
結論は以下の通りである。
1) LLMは,高い性能を達成するために効果的に引き出すことができる世界的知識を有する。
2)SSRLは,幻覚の軽減に内部知識を活用する可能性を実証する。
3) SSRL学習モデルは外部検索エンジンとシームレスに連携する。
我々の研究は、よりスケーラブルなRLエージェントトレーニングをサポートするLLMの可能性を強調した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - An Empirical Study on Reinforcement Learning for Reasoning-Search Interleaved LLM Agents [34.25887147052966]
強化学習(RL)は、現実世界の問題解決に複雑な推論が可能な大規模言語モデル(LLM)の訓練に強い可能性を示している。
最近では、RLを利用して、推論と検索エンジンの使用を巧みに組み合わせた高度なLLMベースの検索エージェントが作成されている。
1)報酬の定式化,(2)基礎となるLLMの選択と特性,(3)RLプロセスにおける検索エンジンの役割など,重要な要素はさらなる調査が必要である。
論文 参考訳(メタデータ) (2025-05-21T05:09:43Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。