論文の概要: Trust but Verify! A Survey on Verification Design for Test-time Scaling
- arxiv url: http://arxiv.org/abs/2508.16665v3
- Date: Tue, 09 Sep 2025 12:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.924373
- Title: Trust but Verify! A Survey on Verification Design for Test-time Scaling
- Title(参考訳): 信頼と検証! テストタイムスケーリングの検証設計に関する調査
- Authors: V Venktesh, Mandeep Rathee, Avishek Anand,
- Abstract要約: テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。
検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
- 参考スコア(独自算出の注目度): 8.428618801719198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has emerged as a new frontier for scaling the performance of Large Language Models. In test-time scaling, by using more computational resources during inference, LLMs can improve their reasoning process and task performance. Several approaches have emerged for TTS such as distilling reasoning traces from another model or exploring the vast decoding search space by employing a verifier. The verifiers serve as reward models that help score the candidate outputs from the decoding process to diligently explore the vast solution space and select the best outcome. This paradigm commonly termed has emerged as a superior approach owing to parameter free scaling at inference time and high performance gains. The verifiers could be prompt-based, fine-tuned as a discriminative or generative model to verify process paths, outcomes or both. Despite their widespread adoption, there is no detailed collection, clear categorization and discussion of diverse verification approaches and their training mechanisms. In this survey, we cover the diverse approaches in the literature and present a unified view of verifier training, types and their utility in test-time scaling. Our repository can be found at https://github.com/elixir-research-group/Verifierstesttimescaling.github.io.
- Abstract(参考訳): テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
テスト時間スケーリングでは、推論中により多くの計算リソースを使用することで、LCMは推論プロセスとタスクパフォーマンスを改善することができる。
他のモデルからの推論トレースの蒸留や、検証器を用いて巨大な復号探索空間を探索するなど、TSに対するいくつかのアプローチが出現している。
検証者は、復号プロセスから候補出力をスコア付けし、広大な解空間を丁寧に探索し、最良の結果を選択するのに役立つ報酬モデルとして機能する。
このパラダイムは、推論時間におけるパラメータフリースケーリングと高いパフォーマンスゲインのために、一般的に呼ばれる優れたアプローチとして登場した。
検証者は、プロセスパス、結果、あるいはその両方を検証するための識別モデルまたは生成モデルとして、迅速なベース、微調整をすることができる。
広く採用されているにもかかわらず、詳細な収集や明確な分類、さまざまな検証アプローチとそのトレーニングメカニズムに関する議論は行われていない。
本調査では,文献における多種多様なアプローチを概説し,テスト時間スケーリングにおける検証者教育,型,それらの有用性について統一的な視点を提示する。
私たちのリポジトリはhttps://github.com/elixir-research-group/Verifierstesttimescaling.github.ioにある。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。