論文の概要: Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
- arxiv url: http://arxiv.org/abs/2506.10056v1
- Date: Wed, 11 Jun 2025 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.351938
- Title: Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput
- Title(参考訳): スループットのためのトレーディング精度によるスケーラブルなコード検証を可能にするリワードモデル
- Authors: Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala,
- Abstract要約: 結果報酬モデル(ORM)が,速度のトレーディング精度を通じて検証をスケールする上で重要な役割を担っていることを示す。
生成-帰属-ランクのアプローチを分析し、不正だが高いランクの解をフィルタリングすることで機能することを示す。
- 参考スコア(独自算出の注目度): 21.59519440154879
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The standard paradigm for solving coding tasks via large language models (LLMs) is to generate-then-rank programs, where the latter step uses a verifier in the ranking process. The growing consensus is that a comprehensive verifier (e.g., a full test suite) should be prioritized over an outcome reward model (ORM) whenever possible, with little consideration given to the trade-offs involved. We aim to challenge this assumption by systematically exploring the tradeoff between speed and accuracy. We find that ORMs play a crucial role in scaling verification through trading accuracy for speed, even when a comprehensive verifier is available. Their value becomes especially apparent when used in a generate-prune-then-rank approach, where a faster but less accurate verifier removes incorrect solutions prior to ranking -- leading to a system that is 11.65x faster while only being 8.33% less accurate than the full test suite. We analyze the generate-prune-then-rank approach and show that it works by filtering out incorrect but highly ranked solutions. These findings enable the design of scalable and accurate program ranking systems.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いてコーディングタスクを解くための標準パラダイムは、後者のステップでは、ランキングプロセスで検証器を使用する、then-rankプログラムを生成することである。
合意の高まりは、包括的な検証(例えば、完全なテストスイート)は、可能な限り成果報酬モデル(ORM)よりも優先されるべきであり、関連するトレードオフにはほとんど考慮されません。
我々は、スピードと精度のトレードオフを体系的に探求することで、この仮定に挑戦することを目指している。
ORMは、包括的な検証が利用可能である場合でも、速度のトレーディング精度を通じて検証をスケールする上で重要な役割を担っている。
高速で精度の低い検証器は、ランキングの前に不正なソリューションを取り除く -- 結果として、完全なテストスイートよりもわずか8.33%低い11.65倍高速なシステムになる。
生成-帰属-ランクのアプローチを分析し、不正だが高いランクの解をフィルタリングすることで機能することを示す。
これらの知見は、スケーラブルで正確なプログラムランキングシステムの設計を可能にする。
関連論文リスト
- Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。
我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。
また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - MFH: A Multi-faceted Heuristic Algorithm Selection Approach for Software Verification [23.80925841520252]
ソフトウェア検証のための自動アルゴリズム選択手法 MFH を提案する。
MFHは意味保存変換プログラムのコードプロパティグラフ(CPG)を埋め込み、予測モデルの堅牢性を高める。
20個の検証器と15,000以上の検証タスクでMFHを評価する。
論文 参考訳(メタデータ) (2025-03-28T08:21:00Z) - Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。
サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。
テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文 参考訳(メタデータ) (2025-02-03T21:31:07Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model [59.495717939664246]
我々は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
GLaPEは,ゴールドラベルが存在しない場合でも,精度よく信頼性の高い評価を行う。
一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
論文 参考訳(メタデータ) (2024-02-04T08:57:54Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。