論文の概要: RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.00790v1
- Date: Wed, 01 Apr 2026 11:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.96803
- Title: RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning
- Title(参考訳): RefineRL: 自己強化強化学習による競争的プログラミングの促進
- Authors: Shaopeng Fu, Xingxing Zhang, Li Dong, Di Wang, Furu Wei,
- Abstract要約: RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
- 参考スコア(独自算出の注目度): 63.432969627395686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have demonstrated strong performance on complex reasoning tasks such as competitive programming (CP), existing methods predominantly focus on single-attempt settings, overlooking their capacity for iterative refinement. In this paper, we present RefineRL, a novel approach designed to unleash the self-refinement capabilities of LLMs for CP problem solving. RefineRL introduces two key innovations: (1) Skeptical-Agent, an iterative self-refinement agent equipped with local execution tools to validate generated solutions against public test cases of CP problems. This agent always maintains a skeptical attitude towards its own outputs and thereby enforces rigorous self-refinement even when validation suggests correctness. (2) A reinforcement learning (RL) solution to incentivize LLMs to self-refine with only standard RLVR data (i.e., problems paired with their verifiable answers). Extensive experiments on Qwen3-4B and Qwen3-4B-2507 demonstrate that our method yields substantial gains: after our RL training, these compact 4B models integrated with the Skeptical-Agent not only outperform much larger 32B models but also approach the single-attempt performance of 235B models. These findings suggest that self-refinement holds considerable promise for scaling LLM reasoning, with significant potential for further advancement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、競合プログラミング(CP)のような複雑な推論タスクにおいて強力な性能を示してきたが、既存の手法は、反復的洗練のための能力を見越して、主に単一目的の設定に焦点を当てている。
本稿では,CP 問題解決のための LLM の自己補充能力を解き放つ新しい手法である RefineRL を提案する。
1) CP問題の公的なテストケースに対して生成したソリューションを検証するための,局所的な実行ツールを備えた反復的自己複製エージェントであるScieptical-Agent。
このエージェントは、常に自身のアウトプットに対する懐疑的な態度を維持し、検証が正確であることを示唆しても厳格な自己抑制を強制する。
2) 標準RLVRデータ(つまり、検証可能な解と組み合わせた問題)のみを用いてLLMを自己精製する強化学習(RL)ソリューション。
Qwen3-4B と Qwen3-4B-2507 の大規模な実験により,我々のRL トレーニングの後,これらのコンパクト 4B モデルは,より大きな32B モデルを上回るだけでなく,235B モデルの単一回避性能にも近づいた。
これらの結果から,自己補充はLSM推論のスケーリングに有意な可能性を秘めており,さらなる進展の可能性が示唆された。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。