Fugu-MT 論文翻訳(概要): Trust but Verify! A Survey on Verification Design for Test-time Scaling

論文の概要: Trust but Verify! A Survey on Verification Design for Test-time Scaling

arxiv url: http://arxiv.org/abs/2508.16665v3
Date: Tue, 09 Sep 2025 12:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-10 14:38:26.924373
Title: Trust but Verify! A Survey on Verification Design for Test-time Scaling
Title（参考訳）: 信頼と検証! テストタイムスケーリングの検証設計に関する調査
Authors: V Venktesh, Mandeep Rathee, Avishek Anand,
Abstract要約: テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
参考スコア（独自算出の注目度）: 8.428618801719198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time scaling (TTS) has emerged as a new frontier for scaling the performance of Large Language Models. In test-time scaling, by using more computational resources during inference, LLMs can improve their reasoning process and task performance. Several approaches have emerged for TTS such as distilling reasoning traces from another model or exploring the vast decoding search space by employing a verifier. The verifiers serve as reward models that help score the candidate outputs from the decoding process to diligently explore the vast solution space and select the best outcome. This paradigm commonly termed has emerged as a superior approach owing to parameter free scaling at inference time and high performance gains. The verifiers could be prompt-based, fine-tuned as a discriminative or generative model to verify process paths, outcomes or both. Despite their widespread adoption, there is no detailed collection, clear categorization and discussion of diverse verification approaches and their training mechanisms. In this survey, we cover the diverse approaches in the literature and present a unified view of verifier training, types and their utility in test-time scaling. Our repository can be found at https://github.com/elixir-research-group/Verifierstesttimescaling.github.io.
Abstract（参考訳）: テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。テスト時間スケーリングでは、推論中により多くの計算リソースを使用することで、LCMは推論プロセスとタスクパフォーマンスを改善することができる。他のモデルからの推論トレースの蒸留や、検証器を用いて巨大な復号探索空間を探索するなど、TSに対するいくつかのアプローチが出現している。検証者は、復号プロセスから候補出力をスコア付けし、広大な解空間を丁寧に探索し、最良の結果を選択するのに役立つ報酬モデルとして機能する。このパラダイムは、推論時間におけるパラメータフリースケーリングと高いパフォーマンスゲインのために、一般的に呼ばれる優れたアプローチとして登場した。検証者は、プロセスパス、結果、あるいはその両方を検証するための識別モデルまたは生成モデルとして、迅速なベース、微調整をすることができる。広く採用されているにもかかわらず、詳細な収集や明確な分類、さまざまな検証アプローチとそのトレーニングメカニズムに関する議論は行われていない。本調査では,文献における多種多様なアプローチを概説し,テスト時間スケーリングにおける検証者教育,型,それらの有用性について統一的な視点を提示する。私たちのリポジトリはhttps://github.com/elixir-research-group/Verifierstesttimescaling.github.ioにある。

関連論文リスト

interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors [47.363850513075356]
実験時間検証フレームワークであるInterwhenを提案し, 与えられた検証結果に対して, 推論モデルの出力が有効であることを保証する。検証された推論は、物理的な世界にエージェントを配置するといった高度なシナリオにおいて重要な目標である。
論文参考訳（メタデータ） (2026-02-05T08:35:01Z)
Exploring Test-time Scaling via Prediction Merging on Large-Scale Recommendation [13.057539100440634]
テスト期間中に計算資源を効率的に活用し、スケールアップする方法は、まだ未定である。 DLRSにテスト時間スケーリングを適用する上で重要なポイントは、多様だが有意義なアウトプットを効果的に生成することにある。オンラインデプロイ時の並列サーバの増加により、テスト時間のスケーリングはシームレスに加速できる。
論文参考訳（メタデータ） (2025-12-08T15:41:10Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。 250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文参考訳（メタデータ） (2025-05-23T01:05:07Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳（メタデータ） (2025-02-17T18:43:24Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。