論文の概要: ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
- arxiv url: http://arxiv.org/abs/2604.27644v2
- Date: Thu, 07 May 2026 08:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.2836
- Title: ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
- Title(参考訳): ANCORA: 検証可能な推論のためのマニフォールド・アンコールド・セルフプレイによる質問の学習
- Authors: Chengcao Yang,
- Abstract要約: オープンエンドカリキュラムの自己プレイに向けてのパラダイムシフトを提案する。
本稿では、新しい仕様を合成するプロポーラと、検証されたソリューションを生成する解決器とを、ポリシーが交互に扱うANCORAを紹介する。
我々はANCORAがDafny2Verus pass@1を26.6%のSFTベースラインから81.5%のテストタイムトレーニング(TTT, 0-shot)に引き上げたことを示す。
移行設定では、Dafny2Verusシードからのトレーニングは、保持されたMBPPとHumanEvalで36.2%と17.2%のpass@1を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a paradigm shift toward open-ended curriculum self-play: rather than learning to answer on a fixed prompt set, a unified policy learns to question: generating verifiable problems, solving them, and turning verifier feedback into self-improvement without human-annotated solutions. We introduce ANCORA, in which the policy alternates between a Proposer that synthesizes novel specifications and a Solver that produces verified solutions, anchored by three load-bearing mechanisms: a two-level group-relative update coupling Proposer advantages across specifications with Solver advantages across solution attempts; iterative self-distilled SFT projecting the base model onto its valid-output manifold before RL; and a UCB-guided Curriculum DAG whose policy-induced problem set can provably expand under self-composition. Without these stabilizers, sparse verifier feedback drives Proposer collapse even under MLRL-aligned rewards; with them, ANCORA bootstraps a verifiable curriculum from zero human solutions. Instantiated in Verus, ANCORA lifts Dafny2Verus pass@1 from a 26.6% SFT baseline to 81.5% in test-time training (TTT, 0-shot), outperforming PSV self-play by 15.8 points despite PSV's 1-shot inference; in a transfer setting, training from Dafny2Verus seeds yields 36.2% and 17.2% pass@1 on held-out MBPP and HumanEval.
- Abstract(参考訳): 固定されたプロンプトセットで答えることを学ぶのではなく、検証可能な問題を生成し、それを解決し、検証者からのフィードバックを人手による注釈のない自己改善に変換するという、統一されたポリシーが疑問を呈する。
本稿では, 新たな仕様を合成するプロポーラと, 検証されたソリューションを生成するソルバーとを交互に構成するANCORAを紹介する。2レベルのグループ相対更新結合 ゾルバーの利点を伴う仕様間のプロポーラの利点 解試行間のアドバンテージ 反復自己蒸留 SFT の基本モデルを RL 以前の有効出力多様体に射影する反復自己蒸留 SFT と, 政策誘導問題セットが自己合成の下で確実に拡張できるUPB誘導カリキュラム DAG である。
これらの安定化器がなければ、スパース検証器のフィードバックは MLRL の報酬の下でもプロポーラの崩壊を招き、ANCORA はゼロヒューマンソリューションから検証可能なカリキュラムをブートストラップする。
ヴァースで実証されたANCORAは、Dafny2Verus pass@1を26.6%のSFTベースラインから81.5%に引き上げ、PSVの1ショットの推論にもかかわらずPSVセルフプレイを15.8ポイント上回った。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning [63.432969627395686]
RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
論文 参考訳(メタデータ) (2026-04-01T11:54:57Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [10.913346263482786]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。