論文の概要: Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning
- arxiv url: http://arxiv.org/abs/2603.07972v1
- Date: Mon, 09 Mar 2026 05:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.50308
- Title: Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning
- Title(参考訳): 人間との適応的な協調:連続学習による多エージェントLLMのメタ認知的ポリシー最適化
- Authors: Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu,
- Abstract要約: 本稿では,Human-In-The-Loop Multi-Agent Collaboration (HILA) フレームワークを提案する。
HILAはエージェントに、問題を自律的に解決し、いつ人間の専門家に延期するかを決定するメタ認知ポリシーを学ぶよう訓練する。
挑戦的な数学的および問題解決のベンチマークの実験は、デュアルループポリシー最適化を備えたHILAが、常に高度なMASよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 12.114998959919978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While scaling individual Large Language Models (LLMs) has delivered remarkable progress, the next frontier lies in scaling collaboration through multi-agent systems (MAS). However, purely autonomous MAS remain ''closed-world'' systems, constrained by the static knowledge horizon of pre-trained models. This limitation makes them brittle on tasks requiring knowledge beyond training data, often leading to collective failure under novel challenges. To address this, we propose the Human-In-the-Loop Multi-Agent Collaboration (HILA) framework, a principled paradigm for human--agent collaboration. HILA trains agents to learn a metacognitive policy that governs when to solve problems autonomously and when to defer to a human expert. To operationalize this policy, we introduce Dual-Loop Policy Optimization, which disentangles immediate decision-making from long-term capability growth. The inner loop applies Group Relative Policy Optimization (GRPO) with a cost-aware reward to optimize deferral decisions, while the outer loop implements continual learning, transforming expert feedback into high-quality supervised signals that strengthen the agent's reasoning ability. Experiments on challenging mathematical and problem-solving benchmarks show that HILA, equipped with Dual-Loop Policy Optimization, consistently outperforms advanced MAS, establishing a principled foundation for collaborative and continually improving agentic systems.
- Abstract(参考訳): 個々のLarge Language Models(LLMs)のスケーリングは目覚ましい進歩を遂げましたが、次のフロンティアはマルチエージェントシステム(MAS)によるコラボレーションのスケーリングです。
しかし、純粋に自律的なMASは、事前訓練されたモデルの静的知識の地平線に制約された「閉世界」システムのままである。
この制限により、トレーニングデータ以外の知識を必要とするタスクが不安定になり、しばしば新しい課題の下で集団的な失敗につながる。
そこで本研究では,Human-In-the-Loop Multi-Agent Collaboration (HILA) フレームワークを提案する。
HILAはエージェントに、問題を自律的に解決し、いつ人間の専門家に延期するかを決定するメタ認知ポリシーを学ぶよう訓練する。
この政策を運用するために,我々は,短期的な意思決定と長期的能力向上を両立させるDual-Loop Policy Optimizationを導入する。
内部ループは、遅延決定を最適化するためにコストを意識した報酬を持つグループ相対ポリシー最適化(GRPO)を適用し、外側ループは継続学習を実装し、専門家のフィードバックをエージェントの推論能力を強化する高品質な教師付き信号に変換する。
挑戦的な数学的および問題解決ベンチマークの実験により、デュアルループポリシー最適化を備えたHILAは、進化したMASを一貫して上回り、協調的かつ継続的なエージェントシステムの改善のための原則的な基盤を確立した。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。