論文の概要: Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.02304v1
- Date: Tue, 04 Nov 2025 06:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.832462
- Title: Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 自動畳み込み協調型多エージェント強化学習
- Authors: Beyazit Yalcinkaya, Marcell Vazquez-Chanlatte, Ameesh Shah, Hanna Krasowski, Sanjit A. Seshia,
- Abstract要約: 本研究では,協調的,時間的目標,集中的訓練,分散実行によるマルチタスク・マルチエージェント政策の学習課題について検討する。
本稿では,タスク条件付き分散チームポリシー学習フレームワークであるACC-MARLを提案する。
- 参考スコア(独自算出の注目度): 6.085436102697102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized execution. In this setting, using automata to represent tasks enables the decomposition of complex tasks into simpler sub-tasks that can be assigned to agents. However, existing approaches remain sample-inefficient and are limited to the single-task case. In this work, we present Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning (ACC-MARL), a framework for learning task-conditioned, decentralized team policies. We identify the main challenges to ACC-MARL's feasibility in practice, propose solutions, and prove the correctness of our approach. We further show that the value functions of learned policies can be used to assign tasks optimally at test time. Experiments show emergent task-aware, multi-step coordination among agents, e.g., pressing a button to unlock a door, holding the door, and short-circuiting tasks.
- Abstract(参考訳): 本研究では,協調的,時間的目標,集中的訓練,分散実行によるマルチタスク・マルチエージェント政策の学習課題について検討する。
この設定では、タスクを表現するためにAutomaticaを使用することで、複雑なタスクをエージェントに割り当てられる単純なサブタスクに分解することができる。
しかし、既存のアプローチはサンプリング非効率であり、シングルタスクの場合に限定されている。
本研究では,タスク条件付き分散チームポリシーを学習するフレームワークであるACC-MARL(Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning)を提案する。
ACC-MARLの実用性に関する主な課題を特定し,提案手法の正しさを検証した。
さらに、学習したポリシーの値関数を用いて、テスト時にタスクを最適に割り当てることを示す。
実験では、緊急タスク認識、エージェント間の複数ステップ調整、ドアのアンロックのためのボタン押下、ドアの保持、短絡タスクなどが示されている。
関連論文リスト
- Decentralizing Multi-Agent Reinforcement Learning with Temporal Causal Information [6.445203664352597]
我々はエージェントに高度な記号的知識を提供することが、この設定のユニークな課題にどのように対処できるかを研究する。
特に、ローカルポリシーとチームタスクの互換性を確認するのに使用されるフォーマルなツールを拡張します。
DMARLにおける事象の時間的進化に関する記号的知識は,DMARLの学習過程を著しく向上させることができることを実証的に実証した。
論文 参考訳(メタデータ) (2025-06-09T14:53:03Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning Complex Teamwork Tasks Using a Given Sub-task Decomposition [11.998708550268978]
本稿では,タスクをよりシンプルなマルチエージェントサブタスクに分解する手法を提案する。
各サブタスクでは、チーム全体のサブセットが、サブタスク固有のポリシを取得するようにトレーニングされる。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、そのポリシーは、より複雑なターゲットタスクを解決するために、まとめて微調整される。
論文 参考訳(メタデータ) (2023-02-09T21:24:56Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。