論文の概要: Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation
- arxiv url: http://arxiv.org/abs/2602.12544v1
- Date: Fri, 13 Feb 2026 02:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.821035
- Title: Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation
- Title(参考訳): 自動データ生成ときめ細かい評価によるWebエージェントのスケーリングトレーニング
- Authors: Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Creighton Glasscock, Honglak Lee,
- Abstract要約: Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。
本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.945281159783896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a scalable pipeline for automatically generating high-quality training data for web agents. In particular, a major challenge in identifying high-quality training instances is trajectory evaluation - quantifying how much progress was made towards task completion. We introduce a novel constraint-based evaluation framework that provides fine-grained assessment of progress towards task completion. This enables us to leverage partially successful trajectories, which significantly expands the amount of usable training data. We evaluate our method on a new benchmark we propose called BookingArena, which consists of complex booking tasks across 20 popular websites, and demonstrate that our distilled student model outperforms open-source approaches and matches or exceeds commercial systems, while being a significantly smaller model. Our work addresses the challenge of efficiently creating diverse, realistic web interaction datasets and provides a systematic evaluation methodology for complex structured web tasks.
- Abstract(参考訳): Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。
特に、高品質なトレーニングインスタンスを特定する上で大きな課題は、軌道評価である。
本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
これにより、部分的に成功した軌道を利用することができ、使用可能なトレーニングデータの量を大幅に増やすことができる。
本手法は,20のWebサイトにわたる複雑な予約タスクからなるBookingArenaというベンチマークを用いて評価し,我々の蒸留した学生モデルがオープンソースアプローチよりも優れており,商用システムよりもはるかに小さいモデルであることを示す。
本研究は,多様で現実的なWebインタラクションデータセットを効率的に作成する上での課題に対処し,複雑なWebタスクの体系的評価手法を提供する。
関連論文リスト
- EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - Automated Robustness with Adversarial Training as a Post-Processing Step [5.55549775099824]
この研究は、堅牢なディープラーニングモデルを得るための単純なポストプロセッシングステップの有効性を探求する。
我々は,ニューラルネットワーク探索アルゴリズムから得られる最適化ネットワークアーキテクチャの処理後ステップとして,逆トレーニングを採用する。
論文 参考訳(メタデータ) (2021-09-06T15:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。