論文の概要: ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.19470v2
- Date: Thu, 27 Mar 2025 05:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:13:35.067811
- Title: ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
- Title(参考訳): ReSearch:強化学習によるLLM検索による推論学習
- Authors: Mingyang Chen, Tianpeng Li, Haoze Sun, Yijie Zhou, Chenzheng Zhu, Haofen Wang, Jeff Z. Pan, Wen Zhang, Huajun Chen, Fan Yang, Zenan Zhou, Weipeng Chen,
- Abstract要約: 本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
- 参考スコア(独自算出の注目度): 37.183397387416065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in reasoning, exemplified by the success of OpenAI-o1 and DeepSeek-R1. However, integrating reasoning with external search processes remains challenging, especially for complex multi-hop questions requiring multiple retrieval steps. We propose ReSearch, a novel framework that trains LLMs to Reason with Search via reinforcement learning without using any supervised data on reasoning steps. Our approach treats search operations as integral components of the reasoning chain, where when and how to perform searches is guided by text-based thinking, and search results subsequently influence further reasoning. We train ReSearch on Qwen2.5-7B(-Instruct) and Qwen2.5-32B(-Instruct) models and conduct extensive experiments. Despite being trained on only one dataset, our models demonstrate strong generalizability across various benchmarks. Analysis reveals that ReSearch naturally elicits advanced reasoning capabilities such as reflection and self-correction during the reinforcement learning process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、OpenAI-o1とDeepSeek-R1の成功によって実証された、推論における顕著な能力を示している。
しかし、特に複数の検索ステップを必要とする複雑なマルチホップ問題では、推論と外部探索プロセスの統合は依然として困難である。
本稿では,LLMを強化学習によるReason with Searchにトレーニングする新しいフレームワークであるReSearchを提案する。
提案手法は,検索操作を推論チェーンの不可欠な要素として扱い,テキストベースの思考によっていつ,どのように検索を行うかが導かれるとともに,検索結果がさらなる推論に影響を与える。
我々はQwen2.5-7B(-Instruct)モデルとQwen2.5-32B(-Instruct)モデル上でReSearchを訓練し、広範な実験を行う。
1つのデータセットでトレーニングされているにもかかわらず、我々のモデルは様々なベンチマークで強力な一般化可能性を示している。
分析によると、ReSearchは強化学習プロセス中にリフレクションや自己補正などの高度な推論機能を自然にもたらす。
関連論文リスト
- Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [45.66983815273302]
本稿では,DeepSeek-R1モデルの拡張であるSearch-R1を提案する。
7つの問合せデータセットの実験では、検索-R1は26%(Qwen2.5-7B)、21%(Qwen2.5-3B)、10%(LLaMA3.2-3B)の性能を強いベースラインで改善している。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Search-o1: Agentic Search-Enhanced Large Reasoning Models [24.239220558484373]
OpenAI-o1のような大きな推論モデル(LRM)は、大規模な強化学習を通じて、大きなステップワイズ推論能力を実証している。
エージェント検索拡張生成(RAG)機構とReason-in-Documentsモジュールを併用し,LRMを強化するフレームワークである textbfSearch-o1 を紹介する。
論文 参考訳(メタデータ) (2025-01-09T16:48:17Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。