論文の概要: OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
- arxiv url: http://arxiv.org/abs/2505.23885v2
- Date: Wed, 11 Jun 2025 01:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.696331
- Title: OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
- Title(参考訳): OWL:実世界のタスク自動化における汎用マルチエージェント支援のための最適化されたワークフォース学習
- Authors: Mengkang Hu, Yuhang Zhou, Wendong Fan, Yuzhou Nie, Bowei Xia, Tao Sun, Ziyu Ye, Zhaoxuan Jin, Yingru Li, Qiguang Chen, Zeyu Zhang, Yifeng Wang, Qianshuo Ye, Bernard Ghanem, Ping Luo, Guohao Li,
- Abstract要約: 専門的な実行から戦略的計画を切り離す階層的なマルチエージェントフレームワークであるWorkforceを紹介します。
推論中、Workforceはワーカーエージェントの追加や修正によって新しいドメインにシームレスに適応する。
トレーニングには、ドメイン間の一般化を改善する最適化されたワークフォース学習(OWL)を導入する。
- 参考スコア(独自算出の注目度): 65.15955645757705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based multi-agent systems show promise for automating real-world tasks but struggle to transfer across domains due to their domain-specific nature. Current approaches face two critical shortcomings: they require complete architectural redesign and full retraining of all components when applied to new domains. We introduce Workforce, a hierarchical multi-agent framework that decouples strategic planning from specialized execution through a modular architecture comprising: (i) a domain-agnostic Planner for task decomposition, (ii) a Coordinator for subtask management, and (iii) specialized Workers with domain-specific tool-calling capabilities. This decoupling enables cross-domain transferability during both inference and training phases: During inference, Workforce seamlessly adapts to new domains by adding or modifying worker agents; For training, we introduce Optimized Workforce Learning (OWL), which improves generalization across domains by optimizing a domain-agnostic planner with reinforcement learning from real-world feedback. To validate our approach, we evaluate Workforce on the GAIA benchmark, covering various realistic, multi-domain agentic tasks. Experimental results demonstrate Workforce achieves open-source state-of-the-art performance (69.70%), outperforming commercial systems like OpenAI's Deep Research by 2.34%. More notably, our OWL-trained 32B model achieves 52.73% accuracy (+16.37%) and demonstrates performance comparable to GPT-4o on challenging tasks. To summarize, by enabling scalable generalization and modular domain transfer, our work establishes a foundation for the next generation of general-purpose AI assistants.
- Abstract(参考訳): LLM(Large Language Model)ベースのマルチエージェントシステムは、現実世界のタスクを自動化することを約束するが、ドメイン固有の性質のためにドメイン間の転送に苦労する。
現在のアプローチでは、アーキテクチャの再設計と、新しいドメインに適用する場合のすべてのコンポーネントの完全な再トレーニングという、2つの重大な欠点に直面しています。
私たちはWorkforceという階層的なマルチエージェントフレームワークを紹介します。
i) タスク分解のためのドメインに依存しないプランナー
二 サブタスク管理のコーディネーター及び
3ドメイン固有のツールコール機能を有するWorkersを専門とする。
このデカップリングは、推論とトレーニングフェーズの両方でドメイン間の転送を可能にする。推論の間、Workforceはワーカーエージェントの追加や修正によって新しいドメインにシームレスに適応する。トレーニングでは、実際のフィードバックからの強化学習を伴ってドメインに依存しないプランナーを最適化することで、ドメイン間の一般化を改善するOptimized Workforce Learning(OWL)を導入する。
提案手法を検証するため, GAIAベンチマーク上でのWorkforceの評価を行い, 現実的なマルチドメインエージェントタスクについて検討した。
実験の結果、Workforceはオープンソースの最先端のパフォーマンス(69.70%)を達成しており、OpenAIのDeep Researchのような商用システムよりも2.34%向上している。
さらに、OWLでトレーニングされた32Bモデルは52.73%の精度(+16.37%)を達成し、挑戦的なタスクにおいてGPT-4oに匹敵する性能を示す。
要約すると、スケーラブルな一般化とモジュラードメイン転送を可能にすることで、私たちの研究は次世代の汎用AIアシスタントの基礎を確立します。
関連論文リスト
- Towards Unified Modeling in Federated Multi-Task Learning via Subspace Decoupling [23.642760378344335]
Federated Multi-Task Learning (FMTL) は、複数のクライアントがローカルデータを交換することなく異種タスクを実行できる。
既存のFMTLメソッドのほとんどは、各クライアント用にパーソナライズされたモデルを構築することに集中しており、複数の異種タスクの集約を統一モデルにサポートできない。
マルチタスクモデル統合に特化して設計された更新構造対応アグリゲーション手法であるFedDEAを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:53:21Z) - Multi-Agent Reinforcement Learning with Long-Term Performance Objectives for Service Workforce Optimization [2.865067924658368]
我々の目標は、統合労働力最適化問題をモデル化するシミュレータを作ることである。
具体的には,強化学習手法の開発を支援するモジュールシミュレータを設計した。
シミュレータはパラメータ化を提供し、様々なレベルのアブレーションと非定常性を持つ動的なシナリオを探索するのに役立つ。
論文 参考訳(メタデータ) (2025-03-03T00:16:47Z) - More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization [55.06956781674986]
我々は、各ソースドメインにいくつかのラベル情報がある半教師付きドメイン一般化タスクの解決に頼っている。
我々は、MultiMatchを提案し、FixMatchをマルチタスク学習フレームワークに拡張し、SSDGのための高品質な擬似ラベルを生成する。
提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T14:44:33Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。