論文の概要: R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17005v1
- Date: Thu, 22 May 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.55252
- Title: R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
- Title(参考訳): R1-Searcher++:強化学習によるLLMの動的知識獲得のインセンティブ化
- Authors: Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao, Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen,
- Abstract要約: 大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
内部および外部の知識ソースを適応的に活用するLLMのトレーニングを目的としたフレームワークであるR1-Searcher++を紹介する。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
- 参考スコア(独自算出の注目度): 83.256752220849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are powerful but prone to hallucinations due to static knowledge. Retrieval-Augmented Generation (RAG) helps by injecting external information, but current methods often are costly, generalize poorly, or ignore the internal knowledge of the model. In this paper, we introduce R1-Searcher++, a novel framework designed to train LLMs to adaptively leverage both internal and external knowledge sources. R1-Searcher++ employs a two-stage training strategy: an initial SFT Cold-start phase for preliminary format learning, followed by RL for Dynamic Knowledge Acquisition. The RL stage uses outcome-supervision to encourage exploration, incorporates a reward mechanism for internal knowledge utilization, and integrates a memorization mechanism to continuously assimilate retrieved information, thereby enriching the model's internal knowledge. By leveraging internal knowledge and external search engine, the model continuously improves its capabilities, enabling efficient retrieval-augmented reasoning. Our experiments demonstrate that R1-Searcher++ outperforms previous RAG and reasoning methods and achieves efficient retrieval. The code is available at https://github.com/RUCAIBox/R1-Searcher-plus.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
Retrieval-Augmented Generation (RAG) は外部情報を注入するのに役立つが、現在の手法はコストがかかり、一般化が悪く、あるいはモデルの内部知識を無視することが多い。
本稿では,LLMを学習し,内部知識と外部知識の両方を適応的に活用する新しいフレームワークであるR1-Searcher++を紹介する。
R1-Searcher++は2段階のトレーニング戦略を採用しており、事前フォーマット学習のための初期SFTコールドスタートフェーズと、RL for Dynamic Knowledge Acquisitionが続く。
RLステージは、探索を促進するために結果スーパービジョンを使用し、内部知識利用のための報酬メカニズムを導入し、記憶機構を統合して、取得した情報を継続的に同化し、モデルの内部知識を強化する。
内部知識と外部検索エンジンを活用することにより、モデルを継続的に改善し、効率的な検索強化推論を可能にする。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
コードはhttps://github.com/RUCAIBox/R1-Searcher-plusで入手できる。
関連論文リスト
- Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent [13.38972389476201]
本稿では、強化内外的知識相乗的推論エージェント(IKEA)を紹介する。
池Aは、内部知識が不十分と判断された場合にのみ外部探索に頼って、独自の知識境界を確定し、内部知識の利用を優先することができる。
IKEAはベースライン法を著しく上回り、検索回数を大幅に削減し、堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-12T14:21:57Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - KEHRL: Learning Knowledge-Enhanced Language Representations with Hierarchical Reinforcement Learning [32.086825891769585]
知識強化事前学習言語モデル(KEPLM)は知識グラフ(KG)から関係トリプルを利用する
従来の研究は、知識の強化を2つの独立した操作、すなわち知識注入と知識統合として扱う。
本稿では,不正確な知識や無関係な知識の注入を避けるために,知識注入位置の検出と外部知識のモデルへの統合という課題を共同で解決する。
論文 参考訳(メタデータ) (2024-06-24T07:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。