論文の概要: CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02979v1
- Date: Tue, 03 Feb 2026 01:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.178067
- Title: CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning
- Title(参考訳): CPMobius: データフリー強化学習のための反復型コーチ-プレーヤ推論
- Authors: Ran Li, Zeyuan Liu, Yinghao chen, Bingxiang He, Jiarui Yuan, Zixuan Fu, Weize Chen, Jinyi Hu, Zhiyuan Liu, Maosong Sun,
- Abstract要約: CPMbius(CPMobius)は推論モデルのデータフリー強化学習のためのCoach-Playerパラダイムである。
従来の対戦型自己プレーとは異なり、CPMbiusはコーチとプレーヤを独立しているが協力的な役割として扱う。
CPMbiusは、外部のトレーニングデータに頼ることなく、大幅に改善され、既存の教師なしアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 55.425576693143285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong potential in complex reasoning, yet their progress remains fundamentally constrained by reliance on massive high-quality human-curated tasks and labels, either through supervised fine-tuning (SFT) or reinforcement learning (RL) on reasoning-specific data. This dependence renders supervision-heavy training paradigms increasingly unsustainable, with signs of diminishing scalability already evident in practice. To overcome this limitation, we introduce CPMöbius (CPMobius), a collaborative Coach-Player paradigm for data-free reinforcement learning of reasoning models. Unlike traditional adversarial self-play, CPMöbius, inspired by real world human sports collaboration and multi-agent collaboration, treats the Coach and Player as independent but cooperative roles. The Coach proposes instructions targeted at the Player's capability and receives rewards based on changes in the Player's performance, while the Player is rewarded for solving the increasingly instructive tasks generated by the Coach. This cooperative optimization loop is designed to directly enhance the Player's mathematical reasoning ability. Remarkably, CPMöbius achieves substantial improvement without relying on any external training data, outperforming existing unsupervised approaches. For example, on Qwen2.5-Math-7B-Instruct, our method improves accuracy by an overall average of +4.9 and an out-of-distribution average of +5.4, exceeding RENT by +1.5 on overall accuracy and R-zero by +4.2 on OOD accuracy.
- Abstract(参考訳): 大規模言語モデル (LLM) は複雑な推論において強い可能性を示しているが、その進歩は、教師付き微調整 (SFT) や強化学習 (RL) を通じて推論固有のデータに頼りながら、非常に高品質な人事やラベルに依存している。
この依存は、監視に重きを置くトレーニングパラダイムをますます持続不可能にし、実際にはスケーラビリティの低下の兆候があります。
この制限を克服するために、推論モデルのデータフリー強化学習のためのCoach-PlayerパラダイムであるCPMöbius(CPMobius)を紹介する。
従来の対戦型セルフプレイとは異なり、CPMöbiusは現実の人間のスポーツコラボレーションやマルチエージェントのコラボレーションにインスパイアされ、コーチとプレイヤーは独立しているが協力的な役割として扱う。
コーチはプレイヤーの能力をターゲットにした指示を提案し、プレイヤーのパフォーマンスの変化に基づいて報酬を受け取る。
この協調最適化ループは、プレイヤーの数学的推論能力を直接的に強化するように設計されている。
注目すべきは、CPMöbiusは外部のトレーニングデータに頼ることなく、大幅な改善を達成し、既存の教師なしアプローチよりも優れています。
例えば、Qwen2.5-Math-7B-Instructでは、OODの精度でRENTを1.5以上、R-zeroを+4.2以上、全体の平均+4.9で、分布外平均+5.4で精度を向上する。
関連論文リスト
- When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning [27.20778530252474]
SPIRALは、モデルをマルチターン、ゼロサムゲームで学習し、自身のバージョンを継続的に改善するセルフプレイフレームワークである。
SPIRALを用いることで、ゼロサムゲーム上でのセルフプレイは、広く移動する推論能力を生み出す。
分析により, この伝達は, 系統的分解, 期待値計算, ケース・バイ・ケース分析という3つの認知的パターンを通じて起こることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-30T17:58:13Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Predicting Game Engagement and Difficulty Using AI Players [3.0501851690100277]
本稿では,人間のプレイヤの行動と経験を予測するための自動プレイテスト手法を提案する。
これまで,Deep Reinforcement Learningゲームプレイングエージェントがゲーム難易度とプレイヤーエンゲージメントの両方を予測することが実証されてきた。
モンテカルロ木探索(MCTS)によるDRL向上によるこのアプローチの改善
論文 参考訳(メタデータ) (2021-07-26T09:31:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。