論文の概要: Agentic Test-Time Scaling for WebAgents
- arxiv url: http://arxiv.org/abs/2602.12276v1
- Date: Thu, 12 Feb 2026 18:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.999923
- Title: Agentic Test-Time Scaling for WebAgents
- Title(参考訳): WebAgentsのエージェントテストタイムスケーリング
- Authors: Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John, Surya Krishnapillai, Michael W. Mahoney, Kurt Keutzer, Amir Gholami,
- Abstract要約: CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
- 参考スコア(独自算出の注目度): 65.5178428849495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has become a standard way to improve performance and boost reliability of neural network models. However, its behavior on agentic, multi-step tasks remains less well-understood: small per-step errors can compound over long horizons; and we find that naive policies that uniformly increase sampling show diminishing returns. In this work, we present CATTS, a simple technique for dynamically allocating compute for multi-step agents. We first conduct an empirical study of inference-time scaling for web agents. We find that uniformly increasing per-step compute quickly saturates in long-horizon environments. We then investigate stronger aggregation strategies, including an LLM-based Arbiter that can outperform naive voting, but that can overrule high-consensus decisions. We show that uncertainty statistics derived from the agent's own vote distribution (entropy and top-1/top-2 margin) correlate with downstream success and provide a practical signal for dynamic compute allocation. Based on these findings, we introduce Confidence-Aware Test-Time Scaling (CATTS), which uses vote-derived uncertainty to allocate compute only when decisions are genuinely contentious. CATTS improves performance on WebArena-Lite and GoBrowse by up to 9.1% over React while using up to 2.3x fewer tokens than uniform scaling, providing both efficiency gains and an interpretable decision rule.
- Abstract(参考訳): テスト時間のスケーリングは、パフォーマンスを改善し、ニューラルネットワークモデルの信頼性を高めるための標準的な方法になっています。
しかし、エージェント的で多段階のタスクに対するその振る舞いは、長い地平線上に小さなステップ毎のエラーが混ざり合っており、サンプリングを均一に増加させるナイーブなポリシーは、リターンが低下することを示している。
本研究では,マルチステップエージェントの計算を動的に割り当てるシンプルな手法であるCATTSを提案する。
まず,Webエージェントの推論時間スケーリングに関する実証的研究を行った。
長期の環境下では,ステップ毎の計算量が一様に増加し,急速に飽和することがわかった。
LLMベースのArbiterを含む,より強力なアグリゲーション戦略について検討する。
エージェント自身の投票分布(エントロピーとトップ-1/トップ-2マージン)から導かれる不確実性統計は、下流の成功と相関し、動的計算割り当てのための実用的な信号を提供する。
これらの結果に基づき,決定が真に論争的である場合にのみ計算を割り当てるために,投票由来の不確実性を利用する信頼度対応テスト時間スケーリング(CATTS)を導入する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%向上すると同時に、均一なスケーリングよりも最大2.3倍少ないトークンを使用することで、効率向上と解釈可能な決定ルールの両方を提供する。
関連論文リスト
- Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling [55.026048429595384]
テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:57:43Z) - Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability [14.00844847268286]
早期のDeep Neural Networksは、中間層での予測を可能にすることで、適応推論を可能にする。
我々のフレームワークは、フルモデルのパフォーマンスと比較して、パフォーマンス低下(2%)を最小限に抑えながら、スピードアップ(1.70-2.10x)が一貫した改善を示している。
論文 参考訳(メタデータ) (2025-09-28T06:05:24Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文 参考訳(メタデータ) (2025-06-05T17:59:24Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。