論文の概要: Beyond pass@k: Redundancy-Aware RLVR for Multi-Sample Code Generation
- arxiv url: http://arxiv.org/abs/2605.28022v1
- Date: Wed, 27 May 2026 06:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.800144
- Title: Beyond pass@k: Redundancy-Aware RLVR for Multi-Sample Code Generation
- Title(参考訳): Pass@kを超えて:マルチサンプルコード生成のための冗長性を考慮したRLVR
- Authors: Le Bronnec Florian, Alexandre Verine, Rio Yokota, Benjamin Negrevergne,
- Abstract要約: JPlagを用いたコード生成における実装レベルの冗長性について検討する。
再現性のみのRLVRは繰り返し実装を中心に世代を集中することが多い。
JPlagの類似性に基づく直接的反冗長報酬によりRLVRを増強する。
- 参考スコア(独自算出の注目度): 48.697385609162154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs for code generation are commonly evaluated in repeated-sampling settings using Pass@k, where multiple candidate programs are executed against unit tests under a finite sampling budget. While recent verifier-based reinforcement learning (RLVR) methods improve executable correctness, how these objectives affect redundancy among sampled programs remains poorly understood. In this work, we study implementation-level redundancy in code generation using JPlag, a plagiarism-detection system for code. Across models and benchmarks, we show that correctness-only RLVR often concentrates generations around repeated implementations, whereas Pass@k-aware objectives maintain lower redundancy and improve larger-budget performance. Motivated by these observations, we augment RLVR with direct anti-redundancy rewards based on JPlag similarity. Across 3 models and 3 benchmarks, discouraging near-duplicate generations reliably improves finite-budget executable performance, often matching or outperforming specialized Pass@k-aware objectives.
- Abstract(参考訳): コード生成のためのLLMは、Pass@kを使って繰り返しサンプリング設定で一般的に評価され、複数の候補プログラムが有限のサンプリング予算の下で単体テストに対して実行される。
近年の検証器による強化学習(RLVR)手法は, 実行可能精度の向上を図っているが, サンプルプログラムの冗長性への影響はよく分かっていない。
本研究では,コード生成における実装レベルの冗長性について,JPlagを用いて検討する。
モデルとベンチマーク全体にわたって、正しさのみのRLVRは繰り返し実装を中心に世代を集中することが多いが、Pass@k-awareの目的は、冗長性の低減とより大きな予算パフォーマンスの向上である。
これらの観察により,JPlagの類似性に基づく直接的反冗長報酬によりRLVRを増強した。
3つのモデルと3つのベンチマークにまたがって、ほぼ重複した世代が確実に有限予算の実行性能を改善し、しばしば特別なPass@k対応の目標にマッチまたは性能を向上する。
関連論文リスト
- $R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction [28.068667649331246]
推論とトレーニングの両方の観点から,デコード冗長性を低減するための統一的なフレームワークを提案する。
R2$-dLLMは、既存のデコード戦略と比較して、デコードステップの数を最大75%削減する。
論文 参考訳(メタデータ) (2026-04-21T02:26:08Z) - Generative Reasoning Re-ranker [24.386586034456673]
Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
論文 参考訳(メタデータ) (2026-02-08T02:12:24Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。