論文の概要: SCATR: Simple Calibrated Test-Time Ranking
- arxiv url: http://arxiv.org/abs/2604.16535v1
- Date: Thu, 16 Apr 2026 20:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.05749
- Title: SCATR: Simple Calibrated Test-Time Ranking
- Title(参考訳): SCATR: 単純なキャリブレーションテストタイムランキング
- Authors: Divya Shyamal, Marta Knežević, Lan Tran, Chanakya Ekbote, Vijay Lingam, Paul Pu Liang,
- Abstract要約: テストタイムスケーリング(TTS)は、推論時にさらなる計算を割り当てることで、大きな言語モデル(LLM)を改善する。
ベースモデルからの隠れ表現を用いて,小さなキャリブレーションセットから軽量スコアラーを学習する,シンプルで効率的なベストオブNランキング手法であるSCATRを導入する。
- 参考スコア(独自算出の注目度): 22.43743012588733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) improves large language models (LLMs) by allocating additional compute at inference time. In practice, TTS is often achieved through parallel scaling: generating multiple candidate responses and selecting the best via a Best-of-N (BoN) strategy. Its effectiveness therefore hinges on the scoring function. Learned scorers such as process reward models (PRMs) can be strong, but they are expensive to train and run. Lightweight confidence heuristics based on token log-probabilities are much cheaper, yet we find that they often perform substantially worse. To improve on lightweight confidence heuristics without incurring the full cost of stronger learned scorers, we introduce SCATR, a simple and efficient BoN ranking method that learns a lightweight scorer from a small calibration set using hidden representations from the base model. Across coding and mathematical reasoning benchmarks, SCATR improves over prior confidence-based baselines by up to 9%. Relative to LoRA fine-tuning on the same calibration data, it achieves comparable accuracy with up to 8000x fewer trainable parameters and much lower compute, reducing training and inference latency by up to 150x and 1000x, respectively. SCATR is also competitive with strong PRM baselines, and in several settings improves accuracy by up to 7.8% on math and 4.2% on coding while enabling up to 1000x faster inference. Overall, SCATR offers a strong accuracy-efficiency trade-off for scalable test-time selection.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、推論時にさらなる計算を割り当てることで、大きな言語モデル(LLM)を改善する。
実際には、TSは複数の候補応答を生成し、Best-of-N(BoN)戦略を介してベストを選択するという並列スケーリングによって達成されることが多い。
したがって、その効果はスコアリング関数に依存する。
プロセス報酬モデル(PRM)のような学習されたスコアラーは強いが、トレーニングや実行にはコストがかかる。
トークンログの確率に基づく軽量な信頼性ヒューリスティックは、はるかに安価ですが、パフォーマンスが著しく低下することがよくあります。
より強力な学習スコアラーのコストを伴わずに軽量な信頼性ヒューリスティックスを改善するために,ベースモデルからの隠れ表現を用いた小さなキャリブレーションセットから軽量スコアラーを学習する簡易かつ効率的なBoNランキング法であるSCATRを導入する。
コーディングと数学的推論のベンチマークを通じて、SCATRは、事前の信頼性ベースのベースラインを最大9%改善する。
同じキャリブレーションデータ上でのLoRAの微調整とは対照的に、最大8000倍のトレーニング可能なパラメータとはるかに低い計算で同等の精度を実現し、トレーニングと推論のレイテンシをそれぞれ最大150倍と1000倍に削減する。
SCATRは強力なPRMベースラインと競合し、いくつかの設定では、最大7.8%の数学と4.2%のコーディングで精度を向上し、最大1000倍高速な推論を可能にしている。
全体として、SCATRはスケーラブルなテスト時間選択のための強力な精度効率トレードオフを提供します。
関連論文リスト
- StableTTA: Training-Free Test-Time Adaptation that Improves Model Accuracy on ImageNet1K to 96% [4.467218412104476]
アンサンブル法は予測性能を向上させるために広く用いられているが、その有効性はメモリ使用量の増加と計算複雑性の増大によって生じることが多い。
本稿では,新しい画像とロジット処理を用いたトレーニング不要なテスト時間適応(StableTTA)を提案する。
論文 参考訳(メタデータ) (2026-04-06T09:21:48Z) - Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR [78.88799271719365]
本稿では,オンラインロールアウトプルーニング手法であるarrol(オンラインロールアウトプルーニングによるRLVRの高速化)を紹介する。
Arrolは軽量なクオリティヘッドをオンザフライでトレーニングし、部分的なロールアウトの成功確率を予測する。
Qwen-3とLLaMA-3.2のGRPOとDAPO全体で、アロールは平均精度を+2.30から+2.99に改善し、最大1.7倍のトレーニングスピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-25T22:10:36Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling [34.20750590384272]
プロセス報酬モデル(PRM)は、テストタイムスケーリング(TTS)の基礎である。
PRMは、大きな言語モデル(LLM)から最適な応答を検証し、選択するために設計されている。
論文 参考訳(メタデータ) (2025-10-15T09:08:51Z) - Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence [38.30075427255948]
大規模言語モデル(LLM)推論を強化するためのTTS(Test-Time Scaling)手法は、しばしばかなりの計算コストを発生させる。
本稿では,外部検証モデルに代えてPRMレベルの性能を実現する,効率的な自己誘導型TTSフレームワークである Guided by Gut (GG) を紹介する。
論文 参考訳(メタデータ) (2025-05-23T18:19:09Z) - Stochastic Rounding for LLM Training: Theory and Practice [15.071158535119539]
ラウンドリング(SR)を利用して,低精度表現による数値誤差に対処する。
最大6.7Bパラメータの事前学習モデルによる実験結果から, SR戦略を用いたBF16が, 混合精度戦略(BF16, FP32)より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-27T22:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。