論文の概要: CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments
- arxiv url: http://arxiv.org/abs/2602.14229v1
- Date: Sun, 15 Feb 2026 16:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.754897
- Title: CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments
- Title(参考訳): CORPGEN:マルチ水平タスク環境における企業環境と自律型ディジタル従業員のシミュレーション
- Authors: Abubakarr Jaye, Nigel Boachie Kumankumah, Chidera Biringa, Anjel Shaileshbhai Patel, Sulaiman Vesal, Dayquan Julienne, Charlotte Siska, Manuel Raúl Meléndez Luján, Anthony Twum-Barimah, Mauricio Velazco, Tianwei Chen,
- Abstract要約: 実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。
負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。
マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
- 参考スコア(独自算出の注目度): 1.6153514666902042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon reasoning is a key challenge for autonomous agents, yet existing benchmarks evaluate agents on single tasks in isolation. Real organizational work requires managing many concurrent long-horizon tasks with interleaving, dependencies, and reprioritization. We introduce Multi-Horizon Task Environments (MHTEs): a distinct problem class requiring coherent execution across dozens of interleaved tasks (45+, 500-1500+ steps) within persistent execution contexts spanning hours. We identify four failure modes that cause baseline CUAs to degrade from 16.7% to 8.7% completion as load scales 25% to 100%, a pattern consistent across three independent implementations. These failure modes are context saturation (O(N) vs O(1) growth), memory interference, dependency complexity (DAGs vs. chains), and reprioritization overhead. We present CorpGen, an architecture-agnostic framework addressing these failures via hierarchical planning for multi-horizon goal alignment, sub-agent isolation preventing cross-task contamination, tiered memory (working, structured, semantic), and adaptive summarization. CorpGen simulates corporate environments through digital employees with persistent identities and realistic schedules. Across three CUA backends (UFO2, OpenAI CUA, hierarchical) on OSWorld Office, CorpGen achieves up to 3.5x improvement over baselines (15.2% vs 4.3%) with stable performance under increasing load, confirming that gains stem from architectural mechanisms rather than specific CUA implementations. Ablation studies show experiential learning provides the largest gains.
- Abstract(参考訳): ロングホライゾン推論は、自律エージェントにとって重要な課題であるが、既存のベンチマークでは、単一タスク上のエージェントを独立して評価している。
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
我々はMHTE(Multi-Horizon Task Environments: MHTEs): 時間にまたがる永続的な実行コンテキストにおいて、数十のインターリーブされたタスク(45以上の500-1500以上のステップ)でコヒーレントな実行を必要とする問題クラスを紹介する。
ロードスケールが25%から100%になるにつれて,ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを同定する。
これらの障害モードは、コンテキスト飽和(O(N)対O(1)成長)、メモリ干渉、依存性複雑性(DAG対チェーン)、優先順位付けオーバーヘッドである。
マルチホライズンゴールアライメントのための階層的計画、サブエージェント分離によるクロスタスク汚染防止、階層メモリ(ワーク、構造化、セマンティック)、適応的な要約などを通じて、これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
CorpGenは、デジタル従業員による企業環境を、永続的なアイデンティティと現実的なスケジュールでシミュレートする。
OSWorld Office上の3つのCUAバックエンド(UFO2、OpenAI CUA、階層)の中で、CorpGenは、負荷の増加下で安定したパフォーマンスで、ベースラインよりも3.5倍の改善(15.2%対4.3%)を達成する。
アブレーション研究は、経験的学習が最大の利益をもたらすことを示している。
関連論文リスト
- QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search [19.376785819604923]
QP-OneModelはSNS検索エンジンにおけるユーザの意図とコンテンツの供給を橋渡しする。
新規な高忠実な意味信号として意図的記述を生成する。
また、32Bモデルを7.60%精度で上回り、より優れた一般化を示す。
論文 参考訳(メタデータ) (2026-02-10T15:38:17Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need [35.88121318813734]
大規模言語モデルに基づくマルチエージェントシステムは、社会シミュレーションや複雑なタスク解決領域において大きな可能性を示している。
AgentGroupChat-V2は、3つのコアイノベーションを通じてこれらの課題に対処する新しいフレームワークです。
AgentGroupChat-V2のさまざまなドメインでの優れたパフォーマンスを示す実験。
論文 参考訳(メタデータ) (2025-06-18T13:24:04Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。