論文の概要: Synthetic Computers at Scale for Long-Horizon Productivity Simulation
- arxiv url: http://arxiv.org/abs/2604.28181v1
- Date: Thu, 30 Apr 2026 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.246632
- Title: Synthetic Computers at Scale for Long-Horizon Productivity Simulation
- Title(参考訳): 長期生産性シミュレーションのための大規模合成コンピュータ
- Authors: Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao,
- Abstract要約: 本稿では,ユーザ固有のコンピュータ環境を構築するためのスケーラブルな方法論であるSynthetic Computers at Scaleを紹介する。
予備実験では,1,000台の合成コンピュータを作成し,その上で長距離シミュレーションを行う。
これらのシミュレーションは、エージェント性能の大幅な改善によって有効性が検証された豊富な経験的学習信号を生成する。
- 参考スコア(独自算出の注目度): 47.31865037664483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic long-horizon productivity work is strongly conditioned on user-specific computer environments, where much of the work context is stored and organized through directory structures and content-rich artifacts. To scale synthetic data creation for such productivity scenarios, we introduce Synthetic Computers at Scale, a scalable methodology for creating such environments with realistic folder hierarchies and content-rich artifacts (e.g., documents, spreadsheets, and presentations). Conditioned on each synthetic computer, we run long-horizon simulations: one agent creates productivity objectives that are specific to the computer's user and require multiple professional deliverables and about a month of human work; another agent then acts as that user and keeps working across the computer -- for example, navigating the filesystem for grounding, coordinating with simulated collaborators, and producing professional artifacts -- until these objectives are completed. In preliminary experiments, we create 1,000 synthetic computers and run long-horizon simulations on them; each run requires over 8 hours of agent runtime and spans more than 2,000 turns on average. These simulations produce rich experiential learning signals, whose effectiveness is validated by significant improvements in agent performance on both in-domain and out-of-domain productivity evaluations. Given that personas are abundant at billion scale, this methodology can in principle scale to millions or even billions of synthetic user worlds with sufficient compute, enabling broader coverage of diverse professions, roles, contexts, environments, and productivity needs. We argue that scalable synthetic computer creation, together with at-scale simulations, is highly promising as a foundational substrate for agent self-improvement and agentic reinforcement learning in long-horizon productivity scenarios.
- Abstract(参考訳): 現実的な長期生産性の作業は、多くの作業コンテキストがディレクトリ構造やコンテンツリッチなアーティファクトを通じて格納され、整理される、ユーザ固有のコンピュータ環境において強く条件付けられている。
このような生産性シナリオに対して合成データ作成をスケールするために、現実的なフォルダ階層とコンテンツリッチなアーティファクト(ドキュメント、スプレッドシート、プレゼンテーションなど)でそのような環境を作成するためのスケーラブルな方法論であるSynthetic Computers at Scaleを紹介します。
ひとつのエージェントは、コンピュータのユーザ特有の生産性目標を生成し、複数のプロフェッショナルな成果物と約1ヶ月の人的作業を必要とします。
予備実験では、1,000台の合成コンピュータを作成し、その上で長距離シミュレーションを実行します。
これらのシミュレーションは、ドメイン内およびドメイン外の生産性評価においてエージェント性能の大幅な向上により、豊富な経験的学習信号を生成する。
数十億の規模でペルソナが豊富であることを考えると、この方法論は原則として、数百万から数十億の合成ユーザワールドに十分な計算能力を持ち、多様な専門職、役割、状況、環境、生産性のニーズを幅広くカバーできる。
我々は、スケーラブルな合成コンピュータの作成と大規模シミュレーションは、長期の生産性シナリオにおけるエージェント自己改善とエージェント強化学習の基礎的基盤として非常に有望であると主張している。
関連論文リスト
- A Cloud-based Multi-Agentic Workflow for Science [0.12314765641075438]
大型言語モデル(LLM)は、様々な科学領域にまたがって広く普及している。
シミュレーションの実行や複雑な決定といった複雑なタスクを実行する能力の欠如は、彼らのユーティリティを制限します。
我々は、完全にクラウド上で実行されている間、科学的アシスタントとして機能するエージェントフレームワークに対して、ドメインに依存しない、モデルに依存しないワークフローを提示します。
論文 参考訳(メタデータ) (2026-01-18T22:37:09Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [55.03911355902567]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.281562732050084]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。
パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。
我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文 参考訳(メタデータ) (2024-10-04T17:51:33Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Synthetic Data Generation for Bridging Sim2Real Gap in a Production Environment [0.0]
ドメイン知識は、コンピュータビジョンアプリケーションにおけるシミュレーションを現実のギャップにブリッジするのに不可欠である。
本稿では,生産環境における部品および組立部品の合成データ生成手法について述べる。
論文 参考訳(メタデータ) (2023-11-18T11:15:08Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。