論文の概要: Adaptive Generate-Rank-Verify: Inference-Time Search with Costly Verification
- arxiv url: http://arxiv.org/abs/2605.17609v1
- Date: Sun, 17 May 2026 19:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.391038
- Title: Adaptive Generate-Rank-Verify: Inference-Time Search with Costly Verification
- Title(参考訳): Adaptive Generate-Rank-Verify:コスト検証による推論時間探索
- Authors: Shaddin Dughmi, Mahdi Haghifam, Yusuf Hakan Kalayci,
- Abstract要約: 我々は、学習理論レンズを生成能動探索として用いて、コスト感受性の第1正探索問題を定式化する。
固定プロンプトでは、ジェネレータと報酬モデルが2つの未知のオブジェクトを誘導する。
本稿では,サンプル応答数やトップランク検証を段階的に増加させる,シェルワイズ適応型生成ランク検証アルゴリズムADAPを提案する。
- 参考スコア(独自算出の注目度): 8.614387395852896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many inference-time language-model pipelines combine a cheap reward signal with an expensive verifier, such as exact answer checking in mathematical reasoning or hidden-test execution in code generation. We formalize this setting using a learning-theoretic lens as generative active search: a cost-sensitive first-positive search problem in which a policy adaptively samples candidates from an unknown distribution, observes cheap scores, and pays for verifier labels until it finds a positive example. For a fixed prompt, the generator and reward model induce two unknown objects: a distribution over reward scores and a score-conditioned success function. When these quantities are known, we characterize the distribution-aware optimal policy using a dynamic programming approach. In the realistic and practical setting where both the score distribution and success function are unknown, we propose ADAP, a shellwise adaptive generate-rank-verify algorithm that progressively increases the number of sampled responses and top-ranked verifications. Under the monotonicity assumption that higher reward scores are no less likely to pass verification, we show that ADAP achieves expected cost within a constant factor of the distribution-aware optimum. We complement this result with learning-theoretic lower bounds, based on a centered star number, showing that structural assumptions on the score--label relationship are necessary. Experiments on mathematical reasoning and competitive programming validate the predicted advantage over both fixed non-adaptive policies and difficulty-adaptive baselines.
- Abstract(参考訳): 多くの推論時言語モデルパイプラインは、数学的な推論における正確な答えチェックやコード生成における隠れテストの実行など、安価な報酬信号と高価な検証器を組み合わせる。
本稿では,学習理論レンズを生成能動探索として用いて,未知の分布から候補を適応的にサンプリングし,安価なスコアを観測し,正の例を見つけるまで検証者ラベルの支払いを行う,コスト感受性の第1正探索問題を定式化する。
固定プロンプトでは、ジェネレータと報酬モデルが2つの未知のオブジェクトを誘導する。
これらの量を知ると、動的プログラミング手法を用いて分布を考慮した最適ポリシーを特徴付ける。
スコア分布と成功関数の両方が不明な現実的かつ実践的な環境では,サンプル応答数やトップランク検証を段階的に増加させるシェルワイズ適応型生成ランク検証アルゴリズムであるADAPを提案する。
単調な仮定では、高い報酬スコアは検証に合格する可能性が低いが、ADAPは分布認識最適化の定数係数内で期待されるコストを達成する。
この結果は、中心星数に基づく学習理論的下界を補完し、スコア-ラベル関係の構造的仮定が必要であることを示す。
数学的推論と競合プログラミングの実験は、固定された非適応ポリシーと困難適応ベースラインの両方に対して予測された優位性を検証する。
関連論文リスト
- Towards Order Fairness: Mitigating LLMs Order Sensitivity through Dual Group Advantage Optimization [20.259122922188126]
大規模言語モデル(LLM)は、入力要素の配列順序に影響される順序バイアスに悩まされる。
textbfDGAOはモデル精度と順序安定性を同時に向上することを目的としている。
論文 参考訳(メタデータ) (2026-05-12T11:31:18Z) - Relative Score Policy Optimization for Diffusion Language Models [29.344961499429257]
拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
論文 参考訳(メタデータ) (2026-05-11T08:58:40Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Energy-bounded Learning for Robust Models of Code [16.592638312365164]
プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。
本稿では,ソースコードモデルのトレーニングプロセスにこれらのアウト・オブ・ディストリビューション・サンプルを組み込むため,エネルギー境界学習目標関数を用いて,イン・ディストリビューション・サンプルにより高いスコアを割り当て,アウト・オブ・ディストリビューション・サンプルに低いスコアを割り当てることを提案する。
論文 参考訳(メタデータ) (2021-12-20T06:28:56Z) - Diversity Enhanced Active Learning with Strictly Proper Scoring Rules [4.81450893955064]
テキスト分類のための能動学習(AL)のための獲得関数について検討する。
我々は、期待損失削減法(ELR)を、ログ確率や負平均二乗誤差などの(厳密な)スコアの増加を推定するために変換する。
BEMPSを用いた平均二乗誤差とログ確率を用いることで、ロバストな取得関数が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:02:11Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。