論文の概要: Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs
- arxiv url: http://arxiv.org/abs/2505.18573v1
- Date: Sat, 24 May 2025 07:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.514921
- Title: Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs
- Title(参考訳): LLMの強化学習における効率化と探索
- Authors: Mengqi Liao, Xiangyu Xi, Ruinian Chen, Jia Leng, Yangen Hu, Ke Zeng, Shuai Liu, Huaiyu Wan,
- Abstract要約: 大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
- 参考スコア(独自算出の注目度): 12.087316618902433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning large language models (LLMs) excel in complex tasks, which has drawn significant attention to reinforcement learning (RL) for LLMs. However, existing approaches allocate an equal number of rollouts to all questions during the RL process, which is inefficient. This inefficiency stems from the fact that training on simple questions yields limited gains, whereas more rollouts are needed for challenging questions to sample correct answers. Furthermore, while RL improves response precision, it limits the model's exploration ability, potentially resulting in a performance cap below that of the base model prior to RL. To address these issues, we propose a mechanism for dynamically allocating rollout budgets based on the difficulty of the problems, enabling more efficient RL training. Additionally, we introduce an adaptive dynamic temperature adjustment strategy to maintain the entropy at a stable level, thereby encouraging sufficient exploration. This enables LLMs to improve response precision while preserving their exploratory ability to uncover potential correct pathways. The code and data is available on: https://github.com/LiaoMengqi/E3-RL4LLMs
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は複雑なタスクに優れており、LLMの強化学習(RL)に大きな注目を集めている。
しかし、既存のアプローチでは、RLプロセス中に全ての質問に同じ数のロールアウトを割り当てるが、これは非効率である。
この非効率性は、単純な質問に対するトレーニングが限られた利益をもたらすという事実に起因している。
さらに、RLは応答精度を向上するが、モデルの探索能力は制限され、RL以前のベースモデルよりも性能上限が低い可能性がある。
これらの課題に対処するために,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案し,より効率的なRLトレーニングを実現する。
さらに, エントロピーを安定的に維持する適応型動的温度調整戦略を導入し, 十分な探査を促進させる。
これにより、LLMは、潜在的に正しい経路を探索する能力を維持しながら、応答精度を向上させることができる。
コードとデータは、https://github.com/LiaoMengqi/E3-RL4LLMsで入手できる。
関連論文リスト
- Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。