論文の概要: AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2506.14205v1
- Date: Tue, 17 Jun 2025 05:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.348198
- Title: AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
- Title(参考訳): AgentSynth: 汎用コンピュータ利用エージェントのためのスケーラブルなタスク生成
- Authors: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song,
- Abstract要約: Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
- 参考スコア(独自算出の注目度): 60.881609323604685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AgentSynth, a scalable and cost-efficient pipeline for automatically synthesizing high-quality tasks and trajectory datasets for generalist computer-use agents. Leveraging information asymmetry, AgentSynth constructs subtasks that are simple during generation but significantly more challenging when composed into long-horizon tasks, enabling the creation of over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based task proposer guided by a persona, followed by an execution agent that completes the task and logs the trajectory. This process is repeated iteratively to form a sequence of subtasks, which are then summarized by a separate agent into a composite task of controllable difficulty. A key strength of AgentSynth is its ability to precisely modulate task complexity by varying the number of subtasks. Empirical evaluations show that state-of-the-art LLM agents suffer a steep performance drop, from 18% success at difficulty level 1 to just 4% at level 6, highlighting the benchmark's difficulty and discriminative power. Moreover, our pipeline achieves a low average cost of \$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our code and data are publicly available at https://github.com/sunblaze-ucb/AgentSynth
- Abstract(参考訳): 本稿では,汎用計算機利用エージェントのための高品質なタスクと軌道データセットを自動合成する,スケーラブルで費用効率のよいパイプラインであるAgensSynthを紹介する。
情報非対称性を活用して、AgentSynthは生成時に単純だが、長い水平タスクに組み込むと、はるかに難しいサブタスクを構築し、6,000以上の多様性と現実的なタスクを作成できる。
私たちのパイプラインは、ペルソナによってガイドされたLLMベースのタスクプロジェクタから始まり、続いてタスクを完了し、軌道をログする実行エージェントが続く。
この過程を反復的に繰り返し、サブタスクの列を形成し、分離されたエージェントによって制御し難い複合タスクにまとめられる。
AgentSynthの重要な強みは、サブタスクの数を変えることでタスクの複雑さを正確に調整できる能力である。
実験的な評価では、最先端のLLMエージェントは、難易度1で18%の成功からレベル6で4%に急激なパフォーマンス低下を経験し、ベンチマークの難易度と差別力を強調した。
さらに、私たちのパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
私たちのコードとデータはhttps://github.com/sunblaze-ucb/AgentSynthで公開されています。
関連論文リスト
- TaskCraft: Automated Generation of Agentic Tasks [39.33785092294476]
エージェントタスクは、自律性、ツールの使用、適応推論による多段階的な問題解決を必要とする。
textscCraftTaskは、難易度、マルチツール、検証可能なエージェントタスクを生成する自動化ワークフローである。
本稿では,エージェントチューニングと評価に関する今後の研究を支援するために,約36,000のタスクからなる大規模合成データセットを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:58:14Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。