論文の概要: Go-Browse: Training Web Agents with Structured Exploration
- arxiv url: http://arxiv.org/abs/2506.03533v1
- Date: Wed, 04 Jun 2025 03:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.134312
- Title: Go-Browse: Training Web Agents with Structured Exploration
- Title(参考訳): Go-Browse: 構造化探索によるWebエージェントのトレーニング
- Authors: Apurva Gandhi, Graham Neubig,
- Abstract要約: 本稿では,多彩で現実的なWebエージェントデータを大規模に収集する手法であるGo-Browseを提案する。
Go-Browseはグラフ検索としてデータ収集をフレーミングすることで効率的な探索を実現する。
提案手法をWebArenaベンチマーク上でインスタンス化し,100URLにわたる10Kのタスク解決トラジェクトリと40Kのインタラクションステップのデータセットを収集する。
- 参考スコア(独自算出の注目度): 49.19468732253614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the fundamental problems in digital agents is their lack of understanding of their environment. For instance, a web browsing agent may get lost in unfamiliar websites, uncertain what pages must be visited to achieve its goals. To address this, we propose Go-Browse, a method for automatically collecting diverse and realistic web agent data at scale through structured exploration of web environments. Go-Browse achieves efficient exploration by framing data collection as a graph search, enabling reuse of information across exploration episodes. We instantiate our method on the WebArena benchmark, collecting a dataset of 10K successful task-solving trajectories and 40K interaction steps across 100 URLs. Fine-tuning a 7B parameter language model on this dataset achieves a success rate of 21.7% on the WebArena benchmark, beating GPT-4o mini by 2.4% and exceeding current state-of-the-art results for sub-10B parameter models by 2.9%.
- Abstract(参考訳): デジタルエージェントの基本的な問題の1つは、彼らの環境に対する理解の欠如である。
例えば、Webブラウジングエージェントは、不慣れなウェブサイトで迷子になり、その目的を達成するためにどのページを訪問する必要があるか分からない。
そこで本研究では,Web 環境の構造化探索を通じて,多種多様な現実的な Web エージェントデータを大規模に収集する手法である Go-Browse を提案する。
Go-Browseは、グラフ検索としてデータ収集をフレーミングすることで効率的な探索を実現し、探索エピソード間の情報の再利用を可能にする。
提案手法をWebArenaベンチマーク上でインスタンス化し,100URLにわたる10Kのタスク解決トラジェクトリと40Kのインタラクションステップのデータセットを収集する。
このデータセット上で7Bパラメータ言語モデルを微調整すると、WebArenaベンチマークで21.7%の成功率に達し、GPT-4o miniを2.4%上回り、サブ10Bパラメータモデルの最先端結果より2.9%上回る。
関連論文リスト
- VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search [42.560419395815146]
視覚言語モデルは多くの知覚に焦点を当てたタスクにおいて大きな進歩を遂げた。
しかし、高品質で多様なトレーニングデータがないため、推論に焦点を絞ったタスクの進歩は依然として限られている。
複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
論文 参考訳(メタデータ) (2025-03-13T17:32:48Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Web-Scale Generic Object Detection at Microsoft Bing [4.350999432264304]
我々は、Webスケールの汎用ビジュアル検索エンジンにデプロイされた最大のオブジェクト検出システムであるジェネリックオブジェクト検出(GenOD)を提案する。
ほぼリアルタイムで、すべてのMicrosoft Bing Visual Searchクエリの900以上のカテゴリを検出することができる。
論文 参考訳(メタデータ) (2021-07-05T06:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。