論文の概要: When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2604.26644v1
- Date: Wed, 29 Apr 2026 13:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.41047
- Title: When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling
- Title(参考訳): いつ投票し、いつ書き直すか: テスト時間スケーリングのための診断ガイド付き戦略ルーティング
- Authors: Zhimin Lin, Yixin Ji, Jinpeng Li, Yu Luo, Dong Li, Junhua Fang, Juntao Li, Min Zhang,
- Abstract要約: 大規模推論モデル(LRM)は、数学的推論タスクにおいて高い性能を達成するが、困難なインスタンスでは信頼性が保たれる。
本稿では、インスタンスレベルのルーティング問題としてテスト時間スケーリングを定式化する、トレーニング不要のフレームワークを提案する。
本研究では,既存の手法と比較してサンプリングコストを削減しつつ,精度を3%~7%向上することを示す。
- 参考スコア(独自算出の注目度): 46.04021933237379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance on mathematical reasoning tasks but remain unreliable on challenging instances. Existing test-time scaling methods, such as repeated sampling, self-correction, and tree search, improve performance at the cost of increased computation, yet often exhibit diminishing returns on hard problems. We observe that output disagreement is strongly correlated with instance difficulty and prediction correctness, providing a useful signal for guiding instance-level strategy selection at test time. Based on this insight, we propose a training-free framework that formulates test-time scaling as an instance-level routing problem, rather than allocating more computation within a single strategy, dynamically selecting among different scaling strategies based on output disagreement. The framework applies lightweight resolution for consistent cases, majority voting for moderate disagreement, and rewriting-based reformulation for highly ambiguous instances. Experiments on seven mathematical benchmarks and three models show that our method improves accuracy by 3% - 7% while reducing sampling cost compared to existing approaches.
- Abstract(参考訳): 大規模推論モデル(LRM)は、数学的推論タスクにおいて高い性能を達成するが、困難なインスタンスでは信頼性が保たれる。
繰り返しサンプリング、自己補正、木探索などの既存のテスト時間スケーリング手法は、計算量の増加による性能向上を図っているが、難しい問題に対するリターンは減少することが多い。
我々は、出力の不一致がインスタンスの難易度と予測精度と強く相関していることを観察し、テスト時にインスタンスレベルの戦略選択を導くのに有用な信号を提供する。
この知見に基づいて、単一戦略内でより多くの計算を割り当て、出力の不一致に基づいて異なるスケーリング戦略の中から動的に選択するのではなく、インスタンスレベルのルーティング問題としてテスト時間スケーリングを定式化する、トレーニング不要のフレームワークを提案する。
このフレームワークは、一貫性のあるケースに対する軽量な解決、穏健な意見の不一致に対する多数決、高度にあいまいなケースに対する書き換えに基づく修正を施している。
7つの数学ベンチマークと3つのモデルによる実験により,既存の手法と比較してサンプリングコストを削減しつつ,精度を3%~7%向上することが示された。
関連論文リスト
- Adaptive Multi-Expert Reasoning via Difficulty-Aware Routing and Uncertainty-Guided Aggregation [0.2864713389096699]
本稿では,動的適応戦略による推論による問題複雑性に着目したフレームワークであるAdaptive Multi-Expert Reasoning (AMR)について述べる。
問題テキストに焦点を当てたアジャイルルーティングシステムは、問題の難しさと不確実性を予測し、再構成可能なサンプリングメカニズムを誘導し、生成の幅を管理する。
GSM8Kデータセットで評価すると、AMRはオリジナルのトレーニングデータのみを使用しながら75.28%の精度を達成した。
論文 参考訳(メタデータ) (2026-04-11T19:44:57Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - LATTS: Locally Adaptive Test-Time Scaling [45.37857725357838]
生成ステップ間で変数計算を割り当てるために,emphLocally Adaptive Test-Time Scaling (LATTS)を提案する。
LATTSは検証者ベースの受け入れ基準を用いて、生成プロセスを再サンプリング、バックトラック、再起動、または停止するかを決定する。
実験結果から, LATTS は標準検証手法と比較して, 高い精度で計算トレードオフを達成できることがわかった。
論文 参考訳(メタデータ) (2025-09-16T17:51:33Z) - Latency and Token-Aware Test-Time Compute [3.573250939705335]
推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大きな言語モデル(LLM)の性能を向上させることができる。
動的計算アロケーションとメソッド選択の問題として,推論時間スケーリングを定式化する。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に組み込んでおり、後者はユーザエクスペリエンス、特にエージェントモデルにとって重要なものです。
論文 参考訳(メタデータ) (2025-09-11T21:35:19Z) - Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。
テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。
テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-08-30T01:54:55Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。