論文の概要: Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation
- arxiv url: http://arxiv.org/abs/2602.07670v1
- Date: Sat, 07 Feb 2026 19:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.751855
- Title: Surprisal-Guided Selection: Compute-Optimal Test-Time Strategies for Execution-Grounded Code Generation
- Title(参考訳): 予備誘導選択:実行コード生成のための最適テスト時間戦略
- Authors: Jarrod Barnes,
- Abstract要約: 検証可能な実行地上(VEG)タスクに対する計算-最適テスト時間戦略について検討する。
重回帰VEGタスクの場合、計算は勾配適応ではなく、サンプルの多様性とインテリジェントな選択に割り当てるべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time training (TTT) adapts language models through gradient-based updates at inference. But is adaptation the right strategy? We study compute-optimal test-time strategies for verifiable execution-grounded (VEG) tasks, domains like GPU kernel optimization where a deterministic evaluator provides dense, continuous reward signals. Using KernelBench as our testbed and a 120B-parameter model (GPT-OSS-120B with LoRA adaptation), we find that search outperforms minimal adaptation (1-5 gradient steps): Best-of-N sampling achieves 90% task success (18/20 tasks) at K=64 across the full KernelBench L1 eval set while TTT's best checkpoint reaches only 30.6% (3-seed mean), with TTT's "equivalent K" falling below 1, worse than single-sample inference. The failure mode is over-sharpening: gradient updates collapse diversity toward mediocre solutions rather than discovering optimal ones. Our main contribution is surprisal-guided selection: selecting the highest-surprisal (lowest-confidence) correct sample yields 80% success vs. 50% for most-confident selection, a 30% improvement. Extending to surprisal-guided-top3 matches oracle performance at 100%. This zero-cost strategy, validated through length-controlled analysis, recovers oracle performance. For dense-reward VEG tasks, compute should be allocated to sample diversity and intelligent selection rather than gradient adaptation. The surprisal-guided selection principle may generalize to other execution-grounded domains where optimal solutions occupy the distribution tail.
- Abstract(参考訳): テストタイムトレーニング(TTT)は、推論時の勾配ベースの更新を通じて言語モデルを適応させる。
しかし、適応は正しい戦略なのか?
決定論的評価器が高密度かつ連続的な報酬信号を提供するGPUカーネル最適化のような,検証可能な実行基底(VEG)タスクに対する計算-最適テスト時間戦略について検討する。
KernelBench をテストベッドとして,120Bパラメータモデル (GPT-OSS-120B with LoRA adaptation) を用いることで,検索精度は最小限の適応(1-5段階)より向上し,全 KernelBench L1 eval セットの K=64 において 90% のタスク成功 (18/20 タスク) を達成し,TTT のベストチェックポイントは 30.6% (3-seed 平均) に達し,TTT の "equivalent K" は単サンプル推論よりも 1 以下に低下した。
グラデーション更新は、最適なものを見つけるのではなく、中間ソリューションに向かって多様性を崩壊させる。
最上位(最下位の信頼度)の正しいサンプルを選択すると、最も信頼度の高い選択に対して80%の成功率、30%改善率が得られます。
仮ガイド付きトップ3まで拡張すると、オラクルのパフォーマンスは100%になる。
このゼロコスト戦略は、長さ制御された分析によって検証され、オラクルのパフォーマンスを回復する。
重回帰VEGタスクの場合、計算は勾配適応ではなく、サンプルの多様性とインテリジェントな選択に割り当てるべきである。
仮定誘導選択原理は、最適解が分布尾を占有する他の実行基底領域に一般化することができる。
関連論文リスト
- Optimal Stopping vs Best-of-$N$ for Inference Time Optimization [11.334978981105559]
PandoraのBox問題に基づく推論時間最適化のための新しいフレームワークを提案する。
そこで我々は,報酬分布を知らずにいつ生成を止めるかを決定するアルゴリズムを開発した。
この結果から,最適停止理論と推定時間スケーリングの原則的ブリッジが確立された。
論文 参考訳(メタデータ) (2025-10-01T19:25:59Z) - C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。
プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10~20%の精度ギャップを残します。
テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文 参考訳(メタデータ) (2025-04-10T17:59:56Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - Influential Language Data Selection via Gradient Trajectory Pursuit [9.925547848971034]
勾配軌道探索法 (Gradient Trajectory Pursuit, GTP) は、L0-ノルム正規化目的の下でデータポイントを共同選択することで勾配軌道の追従を行うアルゴリズムである。
実験では,本アルゴリズムをドメイン内およびターゲット領域選択ベンチマークの両方で実演する。
論文 参考訳(メタデータ) (2024-10-22T05:32:40Z) - Gaussian Process Thompson Sampling via Rootfinding [2.94944680995069]
トンプソンサンプリング(Thompson sample, TS)は、ベイズ決定における単純かつ効果的な政策である。
連続最適化では、目的関数の後方はしばしばガウス過程(GP)であり、サンプルパスは多数の局所最適値を持つ。
本稿では,勾配に基づくマルチスタートの開始点を慎重に選択するGP-TSの効率的なグローバル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:06:45Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - Selective Focusing Learning in Conditional GANs [13.264508791149987]
条件付き生成逆数ネットワーク (cGAN) は, 複雑な生成タスクにおいて, クラスワイド制御性と優れた品質のため, 顕著な成功を収めている。
本稿では,識別器とジェネレータを併用して各クラスの簡単なサンプルを高速に学習する,簡易かつ効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-08T06:06:56Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。