論文の概要: EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.07809v1
- Date: Mon, 11 Aug 2025 09:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.034968
- Title: EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning
- Title(参考訳): EvoCoT: 強化学習における探索ボタネックの克服
- Authors: Huanyu Liu, Jia Li, Chang Yu, Taozhi Chen, Yihong Dong, Lecheng Wang, Hu XiaoLong, Ge Li,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)を学習後,推論能力を向上させる上で有望なパラダイムとなっている。
本稿では,2段階チェーン・オブ・シークレット(CoT)推論最適化に基づく自己進化型カリキュラム学習フレームワークであるEvoCoTを提案する。
EvoCoTは、CoT軌道の自己生成と検証によって探索空間を制約し、その後徐々に短くし、制御された方法で空間を拡張する。
- 参考スコア(独自算出の注目度): 28.317325779208826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable reward (RLVR) has become a promising paradigm for post-training large language models (LLMs) to improve their reasoning capability. However, when the rollout accuracy is low on hard problems, the reward becomes sparse, limiting learning efficiency and causing exploration bottlenecks. Existing approaches either rely on stronger LLMs for distillation or filter out difficult problems, which limits scalability or restricts reasoning improvement through exploration. We propose EvoCoT, a self-evolving curriculum learning framework based on two-stage chain-of-thought (CoT) reasoning optimization. EvoCoT constrains the exploration space by self-generating and verifying CoT trajectories, then gradually shortens them to expand the space in a controlled way. This enables LLMs to stably learn from initially unsolved hard problems under sparse rewards. We apply EvoCoT to multiple LLM families, including Qwen, DeepSeek, and Llama. Experiments show that EvoCoT enables LLMs to solve previously unsolved problems, improves reasoning capability without external CoT supervision, and is compatible with various RL fine-tuning methods. We release the source code to support future research.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)を学習後,推論能力を向上させる上で有望なパラダイムとなっている。
しかし、難しい問題ではロールアウト精度が低い場合、報酬はまばらになり、学習効率が制限され、探索ボトルネックが生じる。
既存のアプローチは、蒸留のために強いLCMに依存するか、難しい問題をフィルタリングする。
2段階チェーン・オブ・シークレット(CoT)推論最適化に基づく自己進化型カリキュラム学習フレームワークであるEvoCoTを提案する。
EvoCoTは、CoT軌道の自己生成と検証によって探索空間を制約し、その後徐々に短くし、制御された方法で空間を拡張する。
これにより、LSMは未解決の難題からスパース報酬の下で安定して学習することができる。
我々は、Qwen、DeepSeek、Llamaを含む複数のLLMファミリーにEvoCoTを適用する。
実験により、EvoCoTはLLMが未解決の問題を解決し、外部のCoT監督なしで推論能力を改善し、様々なRL微調整法と互換性があることが示されている。
将来の研究をサポートするためにソースコードをリリースします。
関連論文リスト
- Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。