論文の概要: Scaling Test-time Compute for LLM Agents
- arxiv url: http://arxiv.org/abs/2506.12928v1
- Date: Sun, 15 Jun 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.107447
- Title: Scaling Test-time Compute for LLM Agents
- Title(参考訳): LLMエージェントのテスト時間計算のスケーリング
- Authors: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou,
- Abstract要約: テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。
本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
- 参考スコア(独自算出の注目度): 51.790752085445384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.
- Abstract(参考訳): テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。
本研究では,テストタイムスケーリング手法を言語エージェントに適用した最初の体系的な調査を行い,その有効性について検討する。
具体的には,(1)並列サンプリングアルゴリズム,(2)シーケンシャルリビジョン戦略,(3)検証方法とマージ方法,(4)ロールアウトの多様化戦略など,さまざまなテストタイムスケーリング戦略を検討する。
1. テスト時間計算のスケーリングはエージェントの性能を向上させる可能性がある。
2. エージェントにとって、いつ反射すべきかを知ることが重要である。
3. 検証方法と結果のマージ手法の相違点として, リストワイド手法が最適である。
4. 多様なロールアウトの増加は, エージェントのタスク性能に肯定的な影響を及ぼす。
関連論文リスト
- Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning [19.426979775180797]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、Large Language Models(LLM)の推論性能を改善する。
我々は、推論最適化モデルが、TSの有効性を制限するような、より多様な出力を生成することが多いことを観察する。
多様性を重視したデータストラテジーにプレフィックスチューニングを適用する軽量な手法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-06-05T04:02:17Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models [9.674458633565111]
テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。
本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。
理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-07T04:01:17Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。