論文の概要: GTA: Generating Long-Horizon Tasks for Web Agents at Scale
- arxiv url: http://arxiv.org/abs/2605.29218v1
- Date: Thu, 28 May 2026 01:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.576148
- Title: GTA: Generating Long-Horizon Tasks for Web Agents at Scale
- Title(参考訳): GTA: 大規模Webエージェントのための長期タスクの生成
- Authors: Tenghao Huang, Kung-Hsiang Huang, Prafulla Kumar Choubey, Yilun Zhou, Muhao Chen, Jonathan May, Chien-Sheng Wu,
- Abstract要約: 我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
- 参考スコア(独自算出の注目度): 82.43869456830664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents, which couple language models with browsing and tool-use capabilities, show promise as open web assistants. Yet progress is increasingly limited by the lack of scalable, process-level supervision. Existing benchmarks are largely manually constructed, providing only coarse start-goal annotations without intermediate trajectories, while recent automatic generation efforts remain expensive, biased, and shallow. These limitations prevent reliable training and evaluation of agents that must generalize to realistic, multi-hop, cross-page tasks. We introduce a scalable framework, GTA, that integrates crawling, retrieval-based seeding, in-context generation, and automated quality control to produce realistic tasks paired with executable trajectories. This design decouples crawling from generation for greater efficiency, grounds tasks in the site graph to enforce compositionality, and ensures dense supervision through deterministic replays and systematic validation. We instantiate the pipeline on over 50 websites covering e-commerce, government, forums, and news, with multilingual and multi-hop coverage. The resulting benchmark reveals a significant human-agent performance gap and enables detailed diagnostics. Our contributions are three-fold: (i) formalizing multi-hop web-agent task generation, (ii) proposing an efficient and validated pipeline for automatic data creation, and (iii) releasing a dynamic benchmark with reproducible evaluation.
- Abstract(参考訳): Webエージェントは、ブラウジングとツール使用機能を組み合わせた言語モデルで、オープンなWebアシスタントとして約束を示す。
しかし、拡張性のあるプロセスレベルの監督が欠如しているため、進歩はますます限られています。
既存のベンチマークは主に手作業で構築されており、中間軌道のない粗いスタートゴールアノテーションのみを提供する一方、最近の自動生成作業は高価で偏りがあり、浅いままである。
これらの制限は、現実的でマルチホップなクロスページタスクに一般化する必要があるエージェントの信頼性の高いトレーニングと評価を妨げる。
本稿では,クローリング,検索ベースのシード,コンテキスト内生成,自動品質制御を統合した拡張性フレームワークであるGTAを導入し,実行可能トラジェクトリと組み合わせた現実的なタスクを生成する。
この設計は、より効率のよいクローリングの生成から切り離し、サイトグラフにタスクを置き、構成性を強制し、決定論的リプレイと体系的な検証を通じて密集した監督を保証する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
その結果得られたベンチマークでは、人間とエージェントのパフォーマンスのギャップが大きくなり、詳細な診断が可能になった。
私たちの貢献は3倍です。
(i)マルチホップウェブエージェントタスク生成の形式化
二 自動データ作成のための効率的かつ検証されたパイプラインの提案、及び
三 再現可能な評価を伴う動的ベンチマークをリリースすること。
関連論文リスト
- GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows [90.35728421223673]
GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
論文 参考訳(メタデータ) (2026-04-17T05:36:00Z) - CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare [37.42599407869901]
マルチモーダルエージェントパイプラインは、複雑で現実的なタスクの効率的でアクセスしやすい自動化を可能にすることによって、人間とコンピュータのインタラクションを変革している。
近年の取り組みは、短期的、あるいは汎用的なアプリケーションに重点を置いており、特に医療において、ドメイン固有のシステムに対する長期的自動化は、ほとんど探索されていない。
本稿では,アクター批判パラダイムに基づくマルチエージェントフレームワークであるCarePilotを紹介する。
実験の結果,CarePilotは最先端のパフォーマンスを達成し,クローズドソースとオープンソースのマルチモーダルベースラインをそれぞれ約15.26%,3.38%向上した。
論文 参考訳(メタデータ) (2026-03-25T10:25:48Z) - Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation [54.945281159783896]
Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。
本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T02:52:18Z) - Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs [38.93261732451012]
マルチモーダル文書理解タスクとWebインタラクションタスクの両方を自動的に生成する知識グラフベースのフレームワークであるGraph2Evalを提案する。
Graph2Eval-Benchはドキュメントの理解とWebインタラクションのシナリオにまたがる1,319のタスクのキュレートされたデータセットです。
実験によると、Graph2Evalは、エージェントとモデルのパフォーマンスを区別するタスクを効率的に生成し、異なる設定間での推論、コラボレーション、Webインタラクションのギャップを明らかにする。
論文 参考訳(メタデータ) (2025-10-01T04:37:54Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。