論文の概要: Beyond the Frontier: Stochastic Backtracking for Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2605.25143v2
- Date: Sun, 31 May 2026 05:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.421627
- Title: Beyond the Frontier: Stochastic Backtracking for Efficient Test-Time Scaling
- Title(参考訳): Beyond the Frontier: 効率的なテスト時間スケーリングのための確率的バックトラック
- Authors: Dao Tran, Duc Anh Le, Ngoc Luu, Quan Pham, Tung Pham, Hung Bui,
- Abstract要約: テストタイムスケーリングは、ソリューショントラジェクトリを探索するために追加の計算を使用することで、言語モデルの推論を改善する。
鍵となる課題は、推論中に生成されたトークンの総数を最小化しながら、精度を最大化することである。
我々は、過去のプレフィックスの永続的なプールにバックトラックを導入し、テスト時間計算が以前生成された状態を再考できるようにする。
- 参考スコア(独自算出の注目度): 4.636680302276584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling improves language model reasoning by spending additional compute to explore multiple solution trajectories. The key challenge is to maximize accuracy while minimizing the total number of generated tokens during reasoning. Recent PRM-guided methods score intermediate prefixes to steer this search, but most are frontier-only: they keep only the current active prefixes and irreversibly prune or resample away the rest using noisy PRM scores. This can cause premature commitment, diversity collapse, and the loss of prefixes that still admit correct continuations. We introduce stochastic backtracking over a persistent pool of historical prefixes, allowing test-time compute to revisit previously generated states instead of only expanding the current frontier. To make this efficient, we propose two complementary mechanisms. Subpool Selection strengthens greedy PRM-guided search by applying Top-N selection within random subpools, giving historical prefixes a chance to bypass over-scored frontier candidates. Power Backtrack Sequential Monte Carlo extends SMC-style resampling to the persistent pool using powered PRM scores and mixture-corrected weights. Across mathematical reasoning benchmarks and model scales, our methods consistently achieve higher accuracy per token count, and the same level of accuracy using only a fraction of the token count in comparison to strong PRM-guided baselines, demonstrating that persistent-pool stochastic backtracking provides a simple and effective way to improve the accuracy-token trade-off in test-time scaling.
- Abstract(参考訳): テストタイムスケーリングは、複数のソリューショントラジェクトリを探索するために追加計算を使用することで、言語モデルの推論を改善する。
鍵となる課題は、推論中に生成されたトークンの総数を最小限にしながら、精度を最大化することである。
最近のPRM誘導法では、この探索を操縦するために中間接頭辞をスコアするが、その多くはフロンティアのみであり、現在のアクティブな接頭辞のみを保持し、ノイズの多いPRMスコアを使用して、残りを不可逆的にプーンまたは再サンプリングする。
これは、早期のコミットメント、多様性の崩壊、そして正しい継続を認めるプレフィックスの喪失を引き起こす可能性がある。
我々は,過去の接頭辞の永続的なプールに確率的バックトラックを導入し,現在のフロンティアを拡大するだけでなく,以前生成された状態を再検討する。
これを効率的にするために,2つの相補的なメカニズムを提案する。
サブプール選択は、ランダムなサブプールにTop-N選択を適用することで、欲張りのPRM誘導探索を強化し、歴史的プレフィックスがオーバースコアフロンティア候補をバイパスする機会を与える。
Power Backtrack Sequential Monte Carloは、パワーPRMスコアと混合補正重量を用いて、SMCスタイルのサンプリングを永続プールに拡張する。
数理的推論ベンチマークとモデルスケール全体にわたって、我々の手法は、トークン数当たりの精度を常に向上し、トークン数のごく一部だけを用いて、強力なPRM誘導ベースラインと同等の精度で達成し、持続プール確率的バックトラックは、テスト時間スケーリングにおける正確かつ効果的なトレードオフを改善する方法であることを示した。
関連論文リスト
- DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models [76.12556589212666]
本稿では拡散言語モデルのためのプラグイントークン順序付けモジュールDPRM(Doob h-transform Process Reward Model)を紹介する。
DPRMは信頼性駆動のプログレッシブオーダから始まり、徐々にDoobh変換プロセスリワード誘導オーダへと移行する。
抽出可能な最適化の仮定の下では、DPRMはランダムおよび信頼のみの順序よりもサンプル複雑さの優位性が得られる。
論文 参考訳(メタデータ) (2026-04-27T11:50:26Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth [23.442686851761298]
AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
論文 参考訳(メタデータ) (2026-03-02T14:28:16Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart [27.904791075662896]
TAAR(Trap-Aware Adaptive Restart)は,部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時間制御フレームワークである。
推測時、TAARは予測されたトラップセグメントの前に軌道を切断し、復号を適応的に再起動する。
実験の結果,TAARはモデルパラメータを微調整することなく推論性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-17T07:26:02Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。