論文の概要: Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification
- arxiv url: http://arxiv.org/abs/2510.06135v1
- Date: Tue, 07 Oct 2025 17:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.373945
- Title: Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification
- Title(参考訳): 非対称検証による深部探索の試験時間スケーリング限界のプッシュ
- Authors: Weihao Zeng, Keqing He, Chuqiao Kuang, Xiaoguang Li, Junxian He,
- Abstract要約: 特定の文脈(例えば、スドゥークパズルの解法)において、応答の検証はそれらを生成するよりもはるかに容易である。
深層探索エージェントの逐次的かつ並列的なTSについて検討し、この設定での検証は生成よりもはるかに容易である、という直感に動機づけられた。
我々は、フラッグシップのオープンソースモデルで実験を行い、それらをTSを通じてHeavy'の亜種に拡張します。
- 参考スコア(独自算出の注目度): 40.75612723453356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time compute can be scaled both sequentially and in parallel. Sequential scaling involves lengthening the generation process, while parallel scaling involves verifying and selecting among multiple candidate outputs. Combining these two strategies has led to the most powerful AI systems, such as Grok 4 Heavy and GPT-5 Pro. In certain contexts (e.g., solving Sudoku puzzles), verifying responses can be substantially easier than generating them. This property, referred to as \emph{asymmetric verification}, highlights the strong potential of test-time scaling (TTS). In this work, we study both sequential and parallel TTS of deep search agents, motivated by the intuition that verification in this setting is often much easier than generation. In experiments, we first show that sequential scaling methods, such as budget forcing, can be effective initially but soon degrade performance. Leveraging asymmetric verification, however, we are able to achieve substantial improvements by allocating only a modest amount of compute to the verifier. We conduct experiments with flagship open-source models and extend them to their ``Heavy'' variants through TTS. These deep research agents achieve gains of up to 27 absolute points on benchmarks such as BrowseComp. Remarkably, as an open-source alternative, GLM-4.5 Heavy reaches accuracy of {\bf 54.0\%} on BrowseComp and {\bf 66.0\%} on GAIA, placing it comparable to the best proprietary choices such as OpenAI Deep Research. Tongyi-DeepResearch Heavy further achieves {\bf 69.0\%} accuracy on BrowseComp, greatly surpassing the best proprietary results.
- Abstract(参考訳): テスト時間計算は逐次と並列の両方でスケールできる。
逐次スケーリングは生成プロセスを延長し、並列スケーリングは複数の候補出力の検証と選択を含む。
これら2つの戦略を組み合わせることで、Grok 4 HeavyやGPT-5 Proといった、最も強力なAIシステムが誕生した。
ある種の文脈(例えば、スドゥークパズルの解法)では、応答の検証はそれらを生成するよりもはるかに容易である。
この性質は 'emph{asymmetric validation} と呼ばれ、テスト時間スケーリング(TTS)の強い可能性を強調する。
本研究では, 深層探索エージェントの逐次的かつ並列的なTSについて検討し, この設定での検証は生成よりもはるかに容易であるという直感に動機づけられた。
実験では、まず、予算強制のような逐次スケーリング手法が最初は有効であったが、すぐに性能が低下することを示した。
しかし、非対称な検証を活用すれば、検証器に最小の計算量だけを割り当てることで、実質的な改善が達成できる。
フラッグシップのオープンソースモデルを用いて実験を行い、それらをTSを通して `Heavy' の変種に拡張する。
これらのディープリサーチエージェントは、BrowseCompのようなベンチマークで最大27の絶対点を獲得している。
注目すべきは、オープンソースの代替として、GLM-4.5 Heavy は BrowseComp 上で {\bf 54.0\%} 、GAIA 上で {\bf 66.0\%} の精度に達し、OpenAI Deep Research のような最高のプロプライエタリな選択に匹敵するものである。
Tongyi-DeepResearch Heavy はさらに BrowseComp の精度 {\bf 69.0\%} を達成し、プロプライエタリな結果をはるかに上回っている。
関連論文リスト
- ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Trust but Verify! A Survey on Verification Design for Test-time Scaling [8.428618801719198]
テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。
検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
論文 参考訳(メタデータ) (2025-08-20T22:27:21Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - First Finish Search: Efficient Test-Time Scaling in Large Language Models [20.62274005080048]
First Finish Search(FFS)は、トレーニング不要の並列デコード戦略で、独立して$n$のサンプルをローンチし、任意のサンプルが完成したらすぐに返却する。
FFSは、AIMEデータセットで82.23%の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15%$改善され、OpenAIのo4-miniのパフォーマンスとほぼ一致する。
論文 参考訳(メタデータ) (2025-05-23T17:57:43Z) - Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling [4.745268750215421]
テストタイムスケーリング(TTS)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明された。
検証は,(1)推論性能と(2)計算効率に影響を与えると同時に,TTSにおいて重要な役割を担っている。
本稿では、ビーム探索を一般化する統一アルゴリズムである可変粒度探索(VG-Search)と、可変粒度パラメータgによるベストオブNサンプリングを紹介する。
論文 参考訳(メタデータ) (2025-05-16T22:24:48Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。