論文の概要: Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning
- arxiv url: http://arxiv.org/abs/2605.27000v2
- Date: Mon, 01 Jun 2026 11:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.537017
- Title: Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning
- Title(参考訳): Cast a Wider Net: コード推論のためのCoordinated Pass@K Policy Optimization
- Authors: Yilong Li, Suman Banerjee, Tong Che,
- Abstract要約: Coordinated Pass@$K$ Policyは、pass@$K$ジェネレーションを戦略に関する共同調査に変える。
APPS、CodeContests、LiveCodeBench-v6全体で、CPPOは、直接サンプリング、プランニングベースライン、プランナーのみのSFT、パス@$K$-orientedで、同じ$K=4$ソルバ回避予算で、pass@4$を改善している。
- 参考スコア(独自算出の注目度): 8.638696735781478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Repeated sampling with a verifier is the standard way to allocate test-time compute for code generation, with pass@$K$ as the canonical metric. Yet the standard policy class draws $K$ independent samples from a single answer distribution, so attempts often collapse onto near-duplicate reasoning paths and waste the budget on redundant rollouts. This failure is costly in competitive programming, where many problems admit multiple distinct algorithmic strategies and pass@$K$ requires only one correct attempt. We propose Coordinated Pass@$K$ Policy Optimization (CPPO), which turns pass@$K$ generation into joint exploration over strategies: a planner emits a tuple of $K{=}4$ alternative high-level methods, and a shared solver attempts one solution per method. CPPO trains this joint policy with a multiplicative planner reward, $R_{\mathrm{plan}} = J_ψ\cdot R_{\mathrm{out}}$, assigning credit only to valid strategy tuples that lead to verifier-confirmed pass@$K$ success. Across APPS, CodeContests, and LiveCodeBench-v6, CPPO improves pass@$4$ over direct sampling, planning baselines, planner-only SFT, and pass@$K$-oriented RL under the same $K{=}4$ solver-attempt budget, with statistically significant gains on six of nine model--benchmark cells. The largest single gain is $+0.16$ on Qwen3.5-9B LiveCodeBench-v6 over the strongest baseline, PKPO ($0.588 \rightarrow 0.748$; paired bootstrap, $p < 0.05$).
- Abstract(参考訳): 検証器による繰り返しサンプリングは、コード生成のためにテスト時間計算を割り当てる標準的な方法である。
しかし、標準ポリシークラスは、1つの回答分布から1ドルの独立したサンプルを引き出すため、ほとんどの試みは、ほぼ重複した推論パスに崩壊し、冗長なロールアウトの予算を浪費する。
この失敗は、複数の異なるアルゴリズム戦略を許容する多くの問題があり、pass@$K$は1つの正しい試みしか必要としない競合プログラミングにおいてコストがかかる。
我々はCoordinated Pass@$K$ Policy Optimization (CPPO)を提案し、pass@$K$生成を戦略上の共同探索に変換する。
CPPOはこのジョイントポリシを、乗算プランナーの報酬である$R_{\mathrm{plan}} = J_\cdot R_{\mathrm{out}}$でトレーニングし、検証済みパス@$K$成功につながる有効な戦略タプルのみにクレジットを割り当てる。
APPS、CodeContests、LiveCodeBench-v6全体で、CPPOは、直接サンプリング、プランニングベースライン、プランナーのみのSFT、パス@K$指向のRLを、同じ$K{=}4$ソルバ目標予算の下で改善する。
最大の単価はQwen3.5-9B LiveCodeBench-v6で、最強のベースラインはPKPO(0.588 \rightarrow 0.748$; paired bootstrap, $p < 0.05$)である。
関連論文リスト
- Sample Complexity Bounds for Stochastic Shortest Path with a Generative Model [67.75889920324124]
最短経路問題(SSP)問題において,$$-optimal Policy($-optimal Policy)を学習する際のサンプル複雑性について検討した。
我々は、$S$状態、$A$アクション、最小コスト$c_min$、およびすべての状態に対する最適ポリシーの最大期待コストを持つ最悪のSSPインスタンスが存在することを示す。
驚くべきことに、$c_min = 0$のSSP問題はいつでも学習できない。
論文 参考訳(メタデータ) (2026-04-17T14:47:52Z) - Actor-Critics Can Achieve Optimal Sample Efficiency [15.033410073144939]
我々は,$O(dH5 log|mathcalA|/epsilon2 + dH4 log|mathcalF|/epsilon2)$ trajectories のサンプル複雑度を得る新しいアクター批判アルゴリズムを提案する。
我々はこれをHybrid RLの設定にまで拡張し、批評家をオフラインデータで初期化すると、純粋なオフラインやオンラインRLに比べてサンプル効率が向上することを示した。
論文 参考訳(メタデータ) (2025-05-06T17:32:39Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reaching Goals is Hard: Settling the Sample Complexity of the Stochastic
Shortest Path [106.37656068276902]
本稿では,最短経路(SSP)問題において,$epsilon$-optimal Policyを学習する際のサンプル複雑性について検討する。
学習者が生成モデルにアクセスできる場合、複雑性境界を導出する。
我々は、$S$状態、$A$アクション、最小コスト$c_min$、およびすべての状態に対する最適ポリシーの最大期待コストを持つ最悪のSSPインスタンスが存在することを示す。
論文 参考訳(メタデータ) (2022-10-10T18:34:32Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z) - Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression [2.0411082897313984]
保持データを用いずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。
本稿では,早期停止と最小一致原理に基づく実践的戦略を実践的に容易に導入することを提案する。
論文 参考訳(メタデータ) (2020-08-20T00:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。