論文の概要: CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.20096v1
- Date: Wed, 27 Aug 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.731592
- Title: CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
- Title(参考訳): CODA:Decoupled Reinforcement Learningを用いた二重脳コンピュータ使用エージェントの脳と小脳の協調
- Authors: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang,
- Abstract要約: 既存のアプローチはトレードオフに苦しむ: ジェネラリストのエージェントは計画に精通するが実行時に性能が悪く、専門のエージェントは反対の弱点を示す。
最近の構成フレームワークは、プランナーとアクターを組み合わせることで、このギャップを埋めようとしているが、それらは通常静的で、訓練不能である。
我々は、ジェネラリストプランナーとスペシャリストエグゼキュータを統合した、新しく訓練可能な構成フレームワークであるCODAを紹介する。
- 参考スコア(独自算出の注目度): 81.08755597239262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically static and non-trainable, which prevents adaptation from experience. This is a critical limitation given the scarcity of high-quality data in scientific domains. To address these limitations, we introduce CODA, a novel and trainable compositional framework that integrates a generalist planner (Cerebrum) with a specialist executor (Cerebellum), trained via a dedicated two-stage pipeline. In the first stage, Specialization, we apply a decoupled GRPO approach to train an expert planner for each scientific application individually, bootstrapping from a small set of task trajectories. In the second stage, Generalization, we aggregate all successful trajectories from the specialized experts to build a consolidated dataset, which is then used for supervised fine-tuning of the final planner. This equips CODA with both robust execution and cross-domain generalization. Evaluated on four challenging applications from the ScienceBoard benchmark, CODA significantly outperforms baselines and establishes a new state of the art among open-source models.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)の自律エージェントは、長期計画と正確な実行の両方を必要とする科学計算のような専門分野において重大な課題に直面している。
既存のアプローチはトレードオフに苦しむ: ジェネラリストのエージェントは計画に精通するが実行時に性能が悪く、専門のエージェントは反対の弱点を示す。
最近の構成フレームワークは、プランナーとアクターを組み合わせることで、このギャップを埋めようとしているが、通常は静的で、トレーニングできないため、適応が経験から妨げられる。
科学的領域における高品質なデータの不足を考えると、これは重大な制限である。
これらの制限に対処するため、CODAは、ジェネラリストプランナー(Cerebrum)とスペシャリストエグゼキュータ(Cerebellum)を統合し、専用の2段階パイプラインでトレーニングする、新しく訓練可能な構成フレームワークである。
専門化の第1段階では,個別に専門家プランナーを訓練するために疎結合のGRPOアプローチを適用し,タスクトラジェクトリの小さなセットからブートストラップを行う。
一般化の第2段階では、専門専門家から得られたすべての軌道を集約し、統合されたデータセットを構築し、最終的なプランナーの教師付き微調整に使用する。
これは、堅牢な実行とクロスドメインの一般化の両方でCODAと同等である。
ScienceBoardベンチマークから4つの挑戦的なアプリケーションを評価することで、CODAはベースラインを著しく上回り、オープンソースモデルの新たな最先端を確立している。
関連論文リスト
- COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets [25.82307075214309]
異種ソース特化専門家(COME)のユニバーサルコラボレーションミックスを提案する。
COMEは、普遍的な表現空間を創り出し、ソース固有の専門家と協力して差別的特徴を抽出する、二重構造セマンティックな共有専門家を確立する。
この設計は、データセット間のエクスペリエンス分布を活用し、小さなバッチや目に見えないデータシナリオに普遍的なUSプリエントを提供することで、堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2025-08-13T15:43:20Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - The Overcooked Generalisation Challenge [8.131038178603873]
我々はOGC(Overcooked Generalisation Challenge)を紹介する。
これは、新しいパートナーやOvercooked-AI環境のレベルに直面するエージェントのゼロショット協調能力を研究する最初のベンチマークである。
我々は,Overcookedにおける汎用エージェントを訓練するための自動カリキュラムを生成するために,最先端のデュアルカリキュラム設計(DCD)手法を併用したインタフェースを提案する。
論文 参考訳(メタデータ) (2024-06-25T21:51:43Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z) - Enhancing Compositional Generalization via Compositional Feature Alignment [14.289836081158615]
我々は、既存の実世界の画像データセットから派生したCGベンチマークスイートであるCG-Benchを開発した。
簡単な2段階ファインタニング手法であるコンポジション・フィーチャーアライメント(CFA)を提案する。
CG-Bench for CLIP and DINOv2, two powerful pretrained vision foundation model。
論文 参考訳(メタデータ) (2024-02-05T10:06:24Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。