論文の概要: Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL
- arxiv url: http://arxiv.org/abs/2605.28751v1
- Date: Wed, 27 May 2026 17:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.239419
- Title: Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL
- Title(参考訳): コードRLにおける外挿重み平均値の正確性-効率フロンティア
- Authors: Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve,
- Abstract要約: 予備的なRLトレーニングを伴わずに,外挿量平均化が新たなチェックポイントにフロンティアを拡張できるかどうかを検討した。
コードRLのネストされた単体テストカバレッジは、外挿重量平均化がナビゲートし、拡張し、活用できる正当性-効率フロンティアを誘導することを示す。
- 参考スコア(独自算出の注目度): 26.358580340079428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear interpolation between fine-tuned checkpoints has been shown to trace the Pareto front between competing objectives, but whether extrapolative weight averaging can extend such frontiers to new checkpoints useful at inference time, without additional RL training, remains unclear. We study this question in RL for competitive programming, where hidden unit tests under time and memory limits enforce both functional correctness and computational efficiency. Starting from a shared initialization, we train checkpoints under nested unit-test coverage: low-coverage rewards require passing smaller-input tests, while high-coverage rewards require passing progressively larger tests up to the full suite. This sweep reveals the emergence of a correctness-efficiency frontier: on hard problems, higher-coverage reward reduces optimization failures but increases correctness failures, leaving solve rate nearly unchanged. Interpolation between low- and high-coverage checkpoints recovers this frontier, while extrapolation extends it beyond the trained endpoints. Both the frontier and its extrapolative continuation appear across three inference settings, pure reasoning, tool use, and agentic coding, and across two model scales, 32B and 7B. At the problem level, moving along the frontier changes which problems are solved, making extrapolated checkpoints complementary policies in inference-time scaling. Ensembles with extrapolative weight averaging broaden coverage and improve pass@250 on LCB/hard by 3.3% over the best single checkpoint at matched sample budget. These results show that nested unit-test coverage in code RL induces a frontier that extrapolative weight averaging can navigate, extend, and exploit.
- Abstract(参考訳): 微調整されたチェックポイント間の線形補間は、競合する目標間のパレートフロントを辿ることが示されているが、外挿重量平均化が、追加のRLトレーニングなしで推論時に有用な新しいチェックポイントまで、これらのフロンティアを拡張できるかどうかは不明である。
本稿では,時間とメモリ制限が機能的正当性と計算効率の両方を強制する,競合プログラミングのためのRLにおけるこの問題について検討する。
ネストされた単体テストカバレッジの下で、共有初期化から始めると、チェックポイントをトレーニングする。低カバレッジの報奨はより小さなインプットテストをパスし、高カバレッジの報奨は徐々に大きなテストをフルスイートにパスする必要があります。
難しい問題では、高いカバレッジの報酬は最適化の失敗を減らすが、正確さの失敗は増加し、解決率はほとんど変わらない。
低被覆チェックポイントと高被覆チェックポイントの補間は、このフロンティアを回復させ、外挿は、訓練されたエンドポイントを超えて拡張する。
フロンティアと外挿継続は、純粋推論、ツール使用、エージェントコーディングの3つの推論設定と、2つのモデルスケール(32Bと7B)にまたがる。
問題レベルでは、問題が解決されるフロンティアに沿って移動することで、推測時間のスケーリングにおいて補足的なチェックポイントを補足する。
補間重量平均化によるアンサンブルは、LCB/hard上のパス@250を、一致したサンプル予算で最高の単一チェックポイントよりも3.3%改善する。
これらの結果は、コードRLのネストされた単体テストカバレッジは、外挿重量平均化がナビゲート、拡張、エクスプロイトできるフロンティアを誘導することを示している。
関連論文リスト
- DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - Probabilistic Object Detection with Conformal Prediction [2.21658458251407]
Conformal Prediction (CP) は、有限サンプル被覆保証付き予測セットを構築するための分布自由な方法である。
標準の非スケールCPは入力間で固定幅の予測間隔を生成し、不確かさの予測に不要な幅をもたらす。
IoUは19%,IoUは39%,CPは39%であった。
論文 参考訳(メタデータ) (2026-05-08T10:23:43Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models [27.97382399449914]
強化学習(RL)ファインタニングは大規模言語モデル(LLM)の整合に不可欠であるが、そのプロセスは不安定である。
実際に、最高のチェックポイントを選択することは難しい。トレーニング中の検証セットのチェックポイントを評価することは、計算コストが高く、優れた検証セットが必要である。
チェックポイント選択(UGCS)に対する不確実性誘導手法を導入し,これらの落とし穴を回避する。
論文 参考訳(メタデータ) (2025-11-13T01:46:58Z) - Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。
本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文 参考訳(メタデータ) (2025-04-23T05:11:21Z) - Recycling Scraps: Improving Private Learning by Leveraging Intermediate Checkpoints [20.533039211835902]
本研究では,DP ML 手法の精度を高めるために,中間チェックポイントの集約を用いた一般的なフレームワークを設計する。
我々は,StackOverflow,CIFAR10,CIFAR100データセットの既存の最先端データに対して,集約によるトレーニングによって予測精度が大幅に向上できることを実証した。
本手法は,プロプライエタリなpCVRタスクにおいて,実用性および分散性の観点から0.54%と62.6%の相対的な改善を実現する。
論文 参考訳(メタデータ) (2022-10-04T19:21:00Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Canny-VO: Visual Odometry with RGB-D Cameras based on Geometric 3D-2D
Edge Alignment [85.32080531133799]
本稿では,自由形式の曲線登録に関する古典的な問題をレビューし,効率的なrgbdビジュアルオドメトリシステムcanny-voに適用する。
エッジ登録でよく用いられる距離変換の代替として、近似近接近傍場と配向近接近傍場という2つの方法が提案されている。
3D2Dエッジアライメントは、効率性と精度の両方の観点から、これらの代替製剤の恩恵を受けます。
論文 参考訳(メタデータ) (2020-12-15T11:42:17Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [85.22775182688798]
この研究はAlpha-Refineと呼ばれる新しい、柔軟で正確な改良モジュールを提案する。
これにより、ベーストラッカーのボックス推定品質が大幅に向上する。
TrackingNet, LaSOT, GOT-10K, VOT 2020 ベンチマークの実験では,我々のアプローチがベーストラッカのパフォーマンスを大幅に改善し,遅延がほとんどなかった。
論文 参考訳(メタデータ) (2020-12-12T13:33:25Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。