論文の概要: R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04185v1
- Date: Wed, 04 Jun 2025 17:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.493969
- Title: R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning
- Title(参考訳): R-Search:マルチリワード強化学習によるLLM推論と検索
- Authors: Qingfei Zhao, Ruobing Wang, Dingling Xu, Daren Zha, Limin Liu,
- Abstract要約: R-SearchはReasoning-Search統合のための強化学習フレームワークである。
ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。
R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
- 参考スコア(独自算出の注目度): 0.8388591755871735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have notably progressed in multi-step and long-chain reasoning. However, extending their reasoning capabilities to encompass deep interactions with search remains a non-trivial challenge, as models often fail to identify optimal reasoning-search interaction trajectories, resulting in suboptimal responses. We propose R-Search, a novel reinforcement learning framework for Reasoning-Search integration, designed to enable LLMs to autonomously execute multi-step reasoning with deep search interaction, and learn optimal reasoning search interaction trajectories via multi-reward signals, improving response quality in complex logic- and knowledge-intensive tasks. R-Search guides the LLM to dynamically decide when to retrieve or reason, while globally integrating key evidence to enhance deep knowledge interaction between reasoning and search. During RL training, R-Search provides multi-stage, multi-type rewards to jointly optimize the reasoning-search trajectory. Experiments on seven datasets show that R-Search outperforms advanced RAG baselines by up to 32.2% (in-domain) and 25.1% (out-of-domain). The code and data are available at https://github.com/QingFei1/R-Search.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階および長鎖推論において顕著に進歩している。
しかし、モデルが最適な推論と探索の相互作用の軌跡を特定できず、結果として準最適応答をもたらすため、その推論能力を探索との深い相互作用を包含するように拡張することは難しい課題である。
本稿では,Reasoning-Search統合のための新しい強化学習フレームワークであるR-Searchを提案する。このフレームワークは,LLMが深層探索による多段階推論を自律的に実行できるように設計され,多回帰信号による探索相互作用軌跡の最適推論を学習し,複雑な論理・知識集約タスクにおける応答品質を向上させる。
R-SearchはLLMに、いつ検索するかを動的に判断すると同時に、重要な証拠をグローバルに統合し、推論と検索の間の深い知識相互作用を強化するよう指導する。
RLトレーニング中、R-Searchは、推論-探索の軌道を共同で最適化するために、マルチステージ、マルチタイプの報酬を提供する。
7つのデータセットの実験では、R-SearchはRAGベースラインを32.2%(ドメイン内)と25.1%(ドメイン外)で上回っている。
コードとデータはhttps://github.com/QingFei1/R-Searchで入手できる。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [37.183397387416065]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。