論文の概要: Go-Browse: Training Web Agents with Structured Exploration
- arxiv url: http://arxiv.org/abs/2506.03533v1
- Date: Wed, 04 Jun 2025 03:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.134312
- Title: Go-Browse: Training Web Agents with Structured Exploration
- Title(参考訳): Go-Browse: 構造化探索によるWebエージェントのトレーニング
- Authors: Apurva Gandhi, Graham Neubig,
- Abstract要約: 本稿では,多彩で現実的なWebエージェントデータを大規模に収集する手法であるGo-Browseを提案する。
Go-Browseはグラフ検索としてデータ収集をフレーミングすることで効率的な探索を実現する。
提案手法をWebArenaベンチマーク上でインスタンス化し,100URLにわたる10Kのタスク解決トラジェクトリと40Kのインタラクションステップのデータセットを収集する。
- 参考スコア(独自算出の注目度): 49.19468732253614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the fundamental problems in digital agents is their lack of understanding of their environment. For instance, a web browsing agent may get lost in unfamiliar websites, uncertain what pages must be visited to achieve its goals. To address this, we propose Go-Browse, a method for automatically collecting diverse and realistic web agent data at scale through structured exploration of web environments. Go-Browse achieves efficient exploration by framing data collection as a graph search, enabling reuse of information across exploration episodes. We instantiate our method on the WebArena benchmark, collecting a dataset of 10K successful task-solving trajectories and 40K interaction steps across 100 URLs. Fine-tuning a 7B parameter language model on this dataset achieves a success rate of 21.7% on the WebArena benchmark, beating GPT-4o mini by 2.4% and exceeding current state-of-the-art results for sub-10B parameter models by 2.9%.
- Abstract(参考訳): デジタルエージェントの基本的な問題の1つは、彼らの環境に対する理解の欠如である。
例えば、Webブラウジングエージェントは、不慣れなウェブサイトで迷子になり、その目的を達成するためにどのページを訪問する必要があるか分からない。
そこで本研究では,Web 環境の構造化探索を通じて,多種多様な現実的な Web エージェントデータを大規模に収集する手法である Go-Browse を提案する。
Go-Browseは、グラフ検索としてデータ収集をフレーミングすることで効率的な探索を実現し、探索エピソード間の情報の再利用を可能にする。
提案手法をWebArenaベンチマーク上でインスタンス化し,100URLにわたる10Kのタスク解決トラジェクトリと40Kのインタラクションステップのデータセットを収集する。
このデータセット上で7Bパラメータ言語モデルを微調整すると、WebArenaベンチマークで21.7%の成功率に達し、GPT-4o miniを2.4%上回り、サブ10Bパラメータモデルの最先端結果より2.9%上回る。
関連論文リスト
- WebGraphEval: Multi-Turn Trajectory Evaluation for Web Agents using Graph Representation [13.14840279219976]
WebGraphEvalは、複数のエージェントからのトラジェクトリを統一された重み付けされたアクショングラフに抽象化するフレームワークである。
我々は、WebGraphEvalが、モデル間の規則性をキャプチャし、冗長性と非効率性を強調し、結果に基づくメトリクスによって見落とされた決定ポイントを特定する。
論文 参考訳(メタデータ) (2025-10-22T03:29:25Z) - Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents [70.77400371166922]
深層研究ウェブエージェントは、洞察に富んだ研究のための知識を厳格に分析し集約する必要がある。
本研究では,Webエージェントの検証可能なトレーニングデータを構築するためのExplore to Evolveパラダイムを提案する。
オープンソースのエージェントフレームワークであるSmolAgentsをベースとして,教師付き微調整トラジェクトリを収集し,一連の基礎モデルを構築する。
論文 参考訳(メタデータ) (2025-10-16T08:37:42Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents [57.203515352080295]
本稿では,モデルに基づく探索と反復的,長短のクエリ進化を用いた体系的データ生成手法であるWebExplorerを紹介する。
我々のモデルは、128Kのコンテキスト長と最大100のツール呼び出しスイッチをサポートし、長期の問題解決を可能にします。
8Bサイズのモデルとして、WebExplorer-8Bは、RLトレーニング後の平均16ターンを効果的に探索することができる。
論文 参考訳(メタデータ) (2025-09-08T10:07:03Z) - WebSight: A Vision-First Architecture for Robust Web Agents [0.0]
WebSightは視覚的知覚によって純粋にWeb環境と対話するように設計された視覚ベースのWebエージェントである。
UI要素のインタラクションに最適化された視覚言語モデルであるWebSight-7Bを紹介する。
WebSight-7BはShowdown Clicksベンチマークで58.84%のトップ1の精度を達成し、より大規模なジェネラリストモデルを上回った。
WebSightとWebSight-7Bは、解釈可能で堅牢で効率的なビジュアルWebナビゲーションのための新しい標準を確立する。
論文 参考訳(メタデータ) (2025-08-23T11:02:59Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents [1.6673034682613495]
我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。
検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。
提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。
WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
論文 参考訳(メタデータ) (2025-04-17T06:16:40Z) - VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search [42.560419395815146]
視覚言語モデルは多くの知覚に焦点を当てたタスクにおいて大きな進歩を遂げた。
しかし、高品質で多様なトレーニングデータがないため、推論に焦点を絞ったタスクの進歩は依然として限られている。
複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
論文 参考訳(メタデータ) (2025-03-13T17:32:48Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Web-Scale Generic Object Detection at Microsoft Bing [4.350999432264304]
我々は、Webスケールの汎用ビジュアル検索エンジンにデプロイされた最大のオブジェクト検出システムであるジェネリックオブジェクト検出(GenOD)を提案する。
ほぼリアルタイムで、すべてのMicrosoft Bing Visual Searchクエリの900以上のカテゴリを検出することができる。
論文 参考訳(メタデータ) (2021-07-05T06:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。