論文の概要: Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
- arxiv url: http://arxiv.org/abs/2510.13913v1
- Date: Wed, 15 Oct 2025 06:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.536445
- Title: Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
- Title(参考訳): プログレッシブな強化機構を有するWebエージェントのためのエージェントデータの合成
- Authors: Shrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu Wang, Caiming Xiong, Shafiq Joty,
- Abstract要約: Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
- 参考スコア(独自算出の注目度): 81.90219895125178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web-based 'deep research' agents aim to solve complex question - answering tasks through long-horizon interactions with online tools. These tasks remain challenging, as the underlying language models are often not optimized for long-horizon reasoning and exploration. Prior work has proposed workflows for constructing instruction-tuning datasets, often leveraging knowledge graphs. However, such methods typically lack fine-grained control over difficulty and quality, yielding synthetic data that falls short of capturing the complexity required for long-horizon reasoning. Furthermore, many studies conflate data and training effects by comparing models trained under different optimization recipes, making it difficult to isolate and evaluate the effectiveness of the data itself. We introduce a two-pronged data synthesis pipeline that generates question - answer pairs by progressively increasing task complexity until a frontier baseline web agent fails. The baseline agent plays multiple roles in this process: attempting the questions, validating factuality, checking for alternative answers, and enforcing filtering. To evaluate the effectiveness of our synthesis methods, we adopt a controlled training setup based on distillation from strong web agents. Experiments across multiple web-based benchmarks show that our dataset - despite being smaller - enables the training of more effective web agents than existing datasets. In particular, our data exhibits twice the diversity in tool-use actions, allowing models trained on it to achieve stronger performance while avoiding repetitive tool-calling behaviors.
- Abstract(参考訳): Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長期の推論と探索に最適化されないことが多いため、これらのタスクは依然として困難なままである。
以前の作業では、インストラクションチューニングデータセットを構築するためのワークフローを提案しており、しばしば知識グラフを活用している。
しかし、このような手法は通常、難易度と品質の細かい制御を欠いており、長軸推論に必要な複雑さを捉えるのに足りていない合成データが得られる。
さらに、異なる最適化レシピの下で訓練されたモデルを比較して、データとトレーニングの効果を詳述し、データ自体の有効性を分離し評価することが困難である。
本稿では,フロンティアベースラインのWebエージェントがフェールするまでタスクの複雑さを徐々に増大させることにより,質問対と回答対を生成する2段階のデータ合成パイプラインを提案する。
ベースラインエージェントは、質問の試行、事実性の検証、代替回答の確認、フィルタリングの実施など、このプロセスで複数の役割を担っている。
提案手法の有効性を評価するため, 強いWebエージェントからの蒸留に基づいて, 制御されたトレーニング設定を採用する。
複数のWebベースのベンチマークの実験から、我々のデータセットは、小さくても、既存のデータセットよりも効果的なWebエージェントのトレーニングを可能にします。
特に、当社のデータはツール使用行動の2倍の多様性を示しており、トレーニングされたモデルでは、反復的なツール呼び出し行動を避けながら、より強力なパフォーマンスを達成することができる。
関連論文リスト
- Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文 参考訳(メタデータ) (2025-09-23T06:46:41Z) - WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis [34.998277998052444]
本稿では,軌道合成と学習のための新しいフレームワークであるWebSynthesisを提案する。
本稿では,WebSynthesis を用いて訓練したエージェントが,大規模実世界のデータに対してトレーニングしたモデルに匹敵する,あるいはそれ以上の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-07-06T12:31:10Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。