論文の概要: Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
- arxiv url: http://arxiv.org/abs/2506.07976v2
- Date: Tue, 10 Jun 2025 12:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.30872
- Title: Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
- Title(参考訳): 思考と行為 - テスト時間インタラクションのスケールアップによる推論エージェント
- Authors: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar,
- Abstract要約: テスト時間スケーリングの未解決次元であるテスト時間インタラクションのスケールアップを提案する。
まず,Webベンチマークのタスク成功を非自明に向上させることが,対話スケーリングの促進にも有効であることを示す。
我々は,TTI(Test-Time Interaction)というカリキュラムベースのオンライン強化学習手法を導入し,エージェントのロールアウト長を適応的に調整することでエージェントを訓練する。
- 参考スコア(独自算出の注目度): 46.286440953594266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current paradigm of test-time scaling relies on generating long reasoning traces ("thinking" more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent's interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.
- Abstract(参考訳): 現在のテストタイムスケーリングのパラダイムは、レスポンスを生成する前に、長い推論トレース("もっと考える"こと)を生成することです。
相互作用を必要とするエージェント問題では、世界で行動する前に思考トレースを生成することでこれを実現できる。
しかし、このプロセスでは、エージェントは環境から新しい情報を取得したり、時間とともに行動に適応することができない。
本研究では, エージェントの相互作用の地平線を増大させ, 探索, バックトラック, 動的再計画などのリッチな動作を可能にするテスト時間スケーリングの未解決次元であるテスト時間インタラクションのスケールアップを提案する。
このスケーリングディメンションの可能性を実証するため、Webエージェントのドメインについて検討する。
まず、トレーニングなしでの対話スケーリングの促進さえも、Webベンチマークでのタスク成功を非自明に改善できることを示します。
これに基づいて,カリキュラムベースのオンライン強化学習(RL)アプローチであるTTI(Test-Time Interaction)を導入し,ロールアウトの長さを適応的に調整することでエージェントを訓練する。
TTIはGemma 3 12Bモデルを使用して、WebVoyagerとWebArenaベンチマーク上で、最先端のオープンソース、オープンソースのWebエージェントを生成する。
さらに、TTIにより、エージェントが探索と搾取を適応的にバランスできることを示す。
提案手法は, 適応エージェントを学習するための新たな経路を提供することにより, ステップ毎の計算をスケールするための強力な相補軸として, インタラクションスケーリングを確立した。
関連論文リスト
- Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。
エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions [25.464036307823974]
SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。
評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
論文 参考訳(メタデータ) (2024-12-21T16:54:28Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。