論文の概要: LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
- arxiv url: http://arxiv.org/abs/2510.14969v1
- Date: Thu, 16 Oct 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.003536
- Title: LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
- Title(参考訳): デジタルエージェント育成のための拡張型汎用シミュレータとしてのLCM
- Authors: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang,
- Abstract要約: 構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。
このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。
WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
- 参考スコア(独自算出の注目度): 55.72784274656801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce $\textbf{UI-Simulator}$, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose $\textbf{UI-Simulator-Grow}$, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
- Abstract(参考訳): デジタルエージェントは、現実世界のタスクを一般化するために、多種多様な大規模なUIトラジェクトリを必要とするが、人間のアノテーション、赤外線、エンジニアリングの観点からは、そのようなデータ収集は違法に高価である。
この目的のために,構造化UIの状態と遷移を生成するスケーラブルなパラダイムである$\textbf{UI-Simulator}$を導入し,大規模にトレーニングトラジェクトリを合成する。
このパラダイムは,多様なUI状態のためのデジタルワールドシミュレータ,コヒーレント探索のためのガイド付きロールアウトプロセス,およびエージェント訓練のための高品質で多様な軌道を生成する軌道ラッパーを統合している。
さらに、高インパクトタスクを優先順位付けし、情報トラジェクトリの変種を合成することにより、より高速でデータ効率の高いスケーリングを可能にする、ターゲットスケーリング戦略である$\textbf{UI-Simulator-Grow}$を提案する。
WebArenaとAndroidWorldの実験では、より弱い教師モデルを使用したにもかかわらず、実際のUIでトレーニングされたオープンソースエージェントと、はるかに優れた堅牢性で、UI-Simulatorが競合する、あるいは超越していることが示されている。
さらに,UI-Simulator-Growは,Llama-3-70B-Instructのみをベースモデルとして,Llama-3-70B-Instructの性能を一致させ,デジタルエージェントを継続的に効率的に拡張する合成スケーリングパラダイムの可能性を強調した。
関連論文リスト
- Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文 参考訳(メタデータ) (2025-10-06T10:29:00Z) - Dreamland: Controllable World Creation with Simulator and Generative Models [32.427050300421115]
大規模ビデオ生成モデルは、動的世界創造のために多様で現実的な視覚コンテンツを合成することができる。
しかし、多くの場合、要素の操作性に欠けており、シーンの編集やAIエージェントの訓練に使用を妨げている。
本研究では,物理シミュレーションの粒度制御と大規模事前学習型生成モデルのフォトリアリスティックコンテンツ出力を組み合わせたハイブリッドワールドジェネレーションフレームワークDreamlandを提案する。
論文 参考訳(メタデータ) (2025-06-09T17:59:52Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。