論文の概要: Survive or Collapse: The Asymmetric Roles of Data Gating and Reward Grounding in Self-Play RL
- arxiv url: http://arxiv.org/abs/2605.22217v1
- Date: Thu, 21 May 2026 09:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.187645
- Title: Survive or Collapse: The Asymmetric Roles of Data Gating and Reward Grounding in Self-Play RL
- Title(参考訳): Survive or Collapse:Self-Play RLにおけるデータゲーティングとリワードグラウンドの非対称的役割
- Authors: Sophia Xiao Pu, Zhaotian Weng, Chengzhi Liu, Jayanth Srinivasa, Gaowen Liu, William Yang Wang, Xin Eric Wang,
- Abstract要約: セルフプレイ強化学習は、言語モデルを独自の生成タスクで訓練し、人間ラベルなしでプロジェクタとソルバを共進化させる。
最近のシステムでは強い推理効果が報告されているが、崩壊と不安定性は広く観察され、理解されていない。
代わりに、自己プレイの安定性は、提案者生成タスクがトレーニングプールに入るかを判断するデータレベルゲートと、すでに認められたタスクに関するポリシーを更新する報酬信号の2つの異なるレバーによって管理されていると論じる。
- 参考スコア(独自算出の注目度): 76.45061154544568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play reinforcement learning trains language models on their own generated tasks, co-evolving a proposer and solver without human labels. Recent systems report strong reasoning gains, but collapse and instability are widely observed and poorly understood. The dominant response treats this as a reward-design problem. We argue instead that self-play stability is governed by two distinct levers: a data-level gate that decides which proposer-generated tasks enter the training pool, and the reward signal that updates the policy on tasks already admitted. Through controlled experiments on a Python output-prediction task and a deterministic-DSL twin task that strips pretraining priors, output ambiguity, and executor noise, we find the two levers are asymmetric. A strict gate is sufficient for stability under every reward variant we test, including a self-consistency reward with no access to ground truth; while no reward variant is sufficient once the gate is removed. This asymmetry exposes a counter-intuitive coupling we call the Grounded Proposer Paradox: a proposer with ground-truth access accelerates collapse faster than an ungrounded one when paired with a self-consistency solver, by concentrating training on clean tasks that form the fastest path to a spurious self-consistent attractor. Replacing the binary gate with a continuous strictness parameter $\varepsilon$ further reveals a two-stage phase transition: training-side metrics decouple at low $\varepsilon$, while validation accuracy holds until $\varepsilon$ is much higher. Data-level gating, not reward calibration, is the binding constraint on self-play stability.
- Abstract(参考訳): セルフプレイ強化学習は、言語モデルを独自の生成タスクで訓練し、人間ラベルなしでプロジェクタとソルバを共進化させる。
最近のシステムでは強い推理効果が報告されているが、崩壊と不安定性は広く観察され、理解されていない。
圧倒的な反応は、これを報酬設計問題として扱う。
代わりに、自己プレイの安定性は、提案者生成タスクがトレーニングプールに入るかを判断するデータレベルゲートと、すでに認められたタスクに関するポリシーを更新する報酬信号の2つの異なるレバーによって管理されていると論じる。
事前学習,出力あいまいさ,エグゼキュータノイズを除去するPython出力予測タスクと決定論的DSLツインタスクの制御実験により,2つのレバーが非対称であることが判明した。
厳密なゲートは、我々がテストするすべての報酬変種の下での安定性に十分である。
この非対称性は、我々が「グラウンドド・プロポーラ・パラドックス」と呼ぶ直感的結合を露呈する: グラウンドトルース・アクセスを持つプロポーラは、スプリアスな自己整合性を引き付けるための最速の経路を形成するクリーンタスクのトレーニングに集中することにより、アングラウンドド・アングラウンドド・アクセスよりも早く崩壊を加速する。
連続的な厳密度パラメータ$\varepsilon$でバイナリゲートをリプレースすると、さらに2段階のフェーズ遷移が明らかになる。
データレベルのゲーティングは、報酬のキャリブレーションではなく、セルフプレイの安定性に対する拘束力である。
関連論文リスト
- From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation [12.503662455234954]
現代の言語モデルでは、誤った回答が破滅的な結果をもたらす場合でも、自信ある幻覚が生じることを示す。
RLVR(Reinforceed Hesitation)は,2進法ではなく3進法を用いた強化学習(Reinforcement Learning from Verifiable Rewards, RLVR)の修正である。
論文 参考訳(メタデータ) (2025-11-14T17:20:45Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。