論文の概要: ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
- arxiv url: http://arxiv.org/abs/2604.27644v1
- Date: Thu, 30 Apr 2026 09:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.024582
- Title: ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning
- Title(参考訳): ANCORA: 検証可能な推論のためのマニフォールド・アンコールド・セルフプレイによる質問の学習
- Authors: Chengcao Yang, Jun Chen,
- Abstract要約: 言語モデルは検証可能な問題を生成し、それを解決し、その結果のフィードバックを人間の監督なしに自己改善できるのか?
本稿では、新しい仕様を合成するProposerと、検証されたソリューションを生成するSolverとを、統一的なポリシーで相互に交換するアンロックされたカリキュラムフレームワークであるANCORAを紹介する。
- 参考スコア(独自算出の注目度): 6.362676503567886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a paradigm shift from learning to answer to learning to question: can a language model generate verifiable problems, solve them, and turn the resulting feedback into self-improvement without human supervision? We introduce ANCORA, an anchored-curriculum framework in which a unified policy alternates between a Proposer that synthesizes novel specifications and a Solver that produces verified solutions. ANCORA rests on three load-bearing mechanisms: a two-level group-relative update that couples Proposer advantages across specifications with Solver advantages across solution attempts; iterative self-distilled SFT that projects the base model onto its valid-output manifold before RL; and a UCB-guided Curriculum DAG that grows only through strictly filtered, novel, Solver-verified specifications. These stabilizers are necessary because sparse verifier feedback otherwise drives Proposer collapse even under MLRL-aligned rewards. Instantiated in Verus, ANCORA lifts Dafny2Verus pass@1 from a 26.6% SFT baseline to 81.5% in the test-time-training setting under 0-shot evaluation, outperforming the PSV self-play baseline by 15.8 points despite PSV using 1-shot inference; in a separate transfer setting, training from Dafny2Verus seeds yields 36.2% and 17.2% pass@1 on held-out MBPP and HumanEval.
- Abstract(参考訳): 言語モデルは検証可能な問題を生成し、それを解決し、その結果のフィードバックを人間の監督なしに自己改善できるのか?
本稿では、新しい仕様を合成するProposerと、検証されたソリューションを生成するSolverとを、統一的なポリシーで相互に交換するアンロックされたカリキュラムフレームワークであるANCORAを紹介する。
ANCORAは3つのロードバリングメカニズムを踏襲している: 2レベルのグループリレーショナルアップデート 仕様にまたがるプロポーラの利点とソリューションの試みにまたがるソルバーの利点、RLの前にベースモデルを有効な出力多様体に投影する反復的な自己蒸留SFT、厳密なフィルタリングされた新規なソルバー検証仕様を通じてのみ成長するUCB誘導カリキュラムDAG。
これらの安定化器は、スパース検証器のフィードバックがなければ、MLRL対応の報酬の下でもプロポーラが崩壊するので必要である。
バーラスで実証されたANCORAは、Dafny2Verus pass@1を26.6%のSFTベースラインから81.5%に引き上げ、PSVのセルフプレイベースラインを1ショットの推論で15.8ポイント上回った。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning [63.432969627395686]
RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
論文 参考訳(メタデータ) (2026-04-01T11:54:57Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [110.90317717368264]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [10.913346263482786]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。