論文の概要: Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2505.11730v1
- Date: Fri, 16 May 2025 22:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.810195
- Title: Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
- Title(参考訳): 効率的なテスト時間スケーリングのための最適検証粒度の再考
- Authors: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan,
- Abstract要約: テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明された。
検証は,(1)推論性能と(2)計算効率に影響を与えると同時に,TTSにおいて重要な役割を担っている。
本稿では、ビーム探索を一般化する統一アルゴリズムである可変粒度探索(VG-Search)と、可変粒度パラメータgによるベストオブNサンプリングを紹介する。
- 参考スコア(独自算出の注目度): 4.745268750215421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has proven effective in enhancing the reasoning capabilities of large language models (LLMs). Verification plays a key role in TTS, simultaneously influencing (1) reasoning performance and (2) compute efficiency, due to the quality and computational cost of verification. In this work, we challenge the conventional paradigms of verification, and make the first attempt toward systematically investigating the impact of verification granularity-that is, how frequently the verifier is invoked during generation, beyond verifying only the final output or individual generation steps. To this end, we introduce Variable Granularity Search (VG-Search), a unified algorithm that generalizes beam search and Best-of-N sampling via a tunable granularity parameter g. Extensive experiments with VG-Search under varying compute budgets, generator-verifier configurations, and task attributes reveal that dynamically selecting g can improve the compute efficiency and scaling behavior. Building on these findings, we propose adaptive VG-Search strategies that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to support future research.
- Abstract(参考訳): テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
検証は,(1)推論性能と(2)計算効率に影響を与えると同時に,TTSにおいて重要な役割を担っている。
本研究は,従来の検証パラダイムに挑戦し,検証の粒度の影響を体系的に調査する最初の試みである。
この目的のために、ビーム探索を一般化する統一アルゴリズムである可変粒度探索(VG-Search)と、調整可能な粒度パラメータgによるBest-of-Nサンプリングを導入する。
様々な計算予算、ジェネレータ検証設定、タスク属性の下でのVG-Searchによる大規模な実験により、動的にgを選択することで、計算効率とスケーリングの振る舞いを改善することが判明した。
これらの結果に基づいて,ビームサーチで最大3.1\%,Best-of-Nで3.6\%,FLOPを52\%以上削減する適応的なVG-Search戦略を提案する。
今後の研究をサポートするためのコードをオープンソースにします。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - MFH: A Multi-faceted Heuristic Algorithm Selection Approach for Software Verification [23.80925841520252]
ソフトウェア検証のための自動アルゴリズム選択手法 MFH を提案する。
MFHは意味保存変換プログラムのコードプロパティグラフ(CPG)を埋め込み、予測モデルの堅牢性を高める。
20個の検証器と15,000以上の検証タスクでMFHを評価する。
論文 参考訳(メタデータ) (2025-03-28T08:21:00Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification [35.347715518778095]
本研究では,サンプリングに基づく探索を規定するスケーリング傾向について検討する。
サンプリングベース検索の最小限の実装を単純にスケールアップするだけで、実用的な推論法が得られます。
テスト時間計算で自己検証能力を改善するための2つの有用な原則を同定する。
論文 参考訳(メタデータ) (2025-02-03T21:31:07Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Testing the Efficacy of Hyperparameter Optimization Algorithms in Short-Term Load Forecasting [0.0]
我々は、Panaama Electricityデータセットを用いて、サロゲート予測アルゴリズムであるXGBoostのHPOアルゴリズムの性能を、精度(MAPE、$R2$)とランタイムで評価する。
その結果,Random SearchよりもHPOアルゴリズムが優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-19T09:08:52Z) - Quantum Algorithm Exploration using Application-Oriented Performance
Benchmarks [0.0]
Application-Oriented BenchmarksのQED-Cスイートは、量子コンピュータの性能特性を測定する機能を提供する。
我々は,このベンチマーク手法がより複雑なアプリケーションに適用される可能性を広げる上での課題について検討する。
論文 参考訳(メタデータ) (2024-02-14T06:55:50Z) - Little Help Makes a Big Difference: Leveraging Active Learning to
Improve Unsupervised Time Series Anomaly Detection [2.1684857243537334]
予期せぬネットワークインシデントを検出するために,多数の異常検出アルゴリズムがデプロイされている。
教師なし異常検出アルゴリズムは、しばしば過度の誤報に悩まされる。
本稿では,オペレータのフィードバックの導入とメリットをアクティブな学習に活用することを提案する。
論文 参考訳(メタデータ) (2022-01-25T13:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。