論文の概要: ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2604.02006v1
- Date: Thu, 02 Apr 2026 13:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.80131
- Title: ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning
- Title(参考訳): ProCeedRL:LLMエージェント推論のための探索的実証強化学習によるプロセス批判
- Authors: Jingyue Gao, Yanjiang Guo, Xiaoshuai Chen, Jianyu Chen,
- Abstract要約: 強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
これをマルチターンエージェントタスクに適用することは、相互作用の長い水平の性質のため、依然として困難である。
本稿では,ProCeedRL:Explorative Demonstration RLによるプロセス批判を提案する。
- 参考スコア(独自算出の注目度): 13.041618832271737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) significantly enhances the reasoning abilities of large language models (LLMs), yet applying it to multi-turn agentic tasks remains challenging due to the long-horizon nature of interactions and the stochasticity of environmental feedback. We identify a structural failure mode in agentic exploration: suboptimal actions elicit noisy observations into misleading contexts, which further weaken subsequent decision-making, making recovery increasingly difficult. This cumulative feedback loop of errors renders standard exploration strategies ineffective and susceptible to the model's reasoning and the environment's randomness. To mitigate this issue, we propose ProCeedRL: Process Critic with Explorative Demonstration RL, shifting exploration from passive selection to active intervention. ProCeedRL employs a process-level critic to monitor interactions in real time, incorporating reflection-based demonstrations to guide agents in stopping the accumulation of errors. We find that this approach significantly exceeds the model's saturated exploration performance, demonstrating substantial exploratory benefits. By learning from exploratory demonstrations and on-policy samples, ProCeedRL significantly improves exploration efficiency and achieves superior performance on complex deep search and embodied tasks.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させるが、相互作用の長期的性質と環境フィードバックの確率性のため、多ターンエージェントタスクに適用することは困難である。
我々は,エージェント探索における構造的障害モードを同定する: 雑音の観測を誤解を招く状況に引き起こし,その後の意思決定をさらに弱め,回復がますます困難になる。
この累積的なフィードバックループは、標準的な探索戦略がモデルの推論と環境のランダム性に非効率で影響を受けやすいことを示している。
この問題を軽減するため,我々はProCeedRL: Process Critic with Explorative Demonstration RLを提案する。
ProCeedRLでは、プロセスレベルの批評家を使用して、リアルタイムでインタラクションを監視し、リフレクションベースのデモを取り入れて、エラーの蓄積を防ぐためのエージェントをガイドしている。
提案手法は, 模型の飽和探査性能を著しく上回り, かなりの探索効果を示す。
ProCeedRLは探索実験とオンラインサンプルから学習することにより,探索効率を大幅に向上し,複雑な深層探索および具体化タスクにおいて優れた性能を発揮する。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models [47.05227816684691]
推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
論文 参考訳(メタデータ) (2025-09-30T17:58:34Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - A Survey On Enhancing Reinforcement Learning in Complex Environments: Insights from Human and LLM Feedback [1.0359008237358598]
本稿では、まず、人間やLSMの補助に焦点をあて、これらの実体が最適な行動の促進と学習の迅速化のためにRLエージェントと協調する方法について検討し、また、大きな観測空間によって特徴づけられる環境の複雑さに対処する研究論文を探索する。
論文 参考訳(メタデータ) (2024-11-20T15:52:03Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。