論文の概要: Developing cooperative policies for multi-stage tasks
- arxiv url: http://arxiv.org/abs/2007.00203v1
- Date: Wed, 1 Jul 2020 03:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:00:28.711239
- Title: Developing cooperative policies for multi-stage tasks
- Title(参考訳): 多段階タスクのための協調政策の開発
- Authors: Jordan Erskine, Chris Lehnert
- Abstract要約: 本稿では,協調型ソフトアクター批判(CSAC)手法を提案する。
CSACは非協調的な政策よりも少なくとも20%高い成功率を達成し、単一エージェントの少なくとも4倍の速さで解に収束した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes the Cooperative Soft Actor Critic (CSAC) method of
enabling consecutive reinforcement learning agents to cooperatively solve a
long time horizon multi-stage task. This method is achieved by modifying the
policy of each agent to maximise both the current and next agent's critic.
Cooperatively maximising each agent's critic allows each agent to take actions
that are beneficial for its task as well as subsequent tasks. Using this method
in a multi-room maze domain, the cooperative policies were able to outperform
both uncooperative policies as well as a single agent trained across the entire
domain. CSAC achieved a success rate of at least 20\% higher than the
uncooperative policies, and converged on a solution at least 4 times faster
than the single agent.
- Abstract(参考訳): 本稿では,連続強化学習エージェントによる多段階多段階課題の協調的解決を可能にする協調的ソフトアクタ・レビュー(csac)手法を提案する。
この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。
各エージェントの批判を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。
この手法をマルチルームの迷路ドメインで使用することにより,協調政策は非協力的な方針と,ドメイン全体で訓練された1つのエージェントを上回ることを可能にした。
CSACは非協調的な政策よりも少なくとも20倍高い成功率を達成し、単一エージェントの少なくとも4倍の速さで解に収束した。
関連論文リスト
- CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation [98.11670473661587]
CaPoは,1)メタプラン生成,2)プログレッシブなメタプランと実行の2つのフェーズで協調効率を向上する。
3Dworld Multi-Agent TransportとCommunicative Watch-And-Helpタスクの実験結果は、CaPoが最先端技術と比較してタスク完了率と効率をはるかに高めることを示した。
論文 参考訳(メタデータ) (2024-11-07T13:08:04Z) - Fully Decentralized Cooperative Multi-Agent Reinforcement Learning: A
Survey [48.77342627610471]
協調型マルチエージェント強化学習は多くの実世界の協調作業を解決する強力なツールである。
完全に分散した環境で最適な共同政策に収束できるアルゴリズムを導出することは困難である。
論文 参考訳(メタデータ) (2024-01-10T05:07:42Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents [39.19326531319873]
既存のAd Hoc Teamwork(AHT)メソッドは、さまざまなチームメイトポリシーを持つエージェントをトレーニングすることで、この問題に対処する。
我々は、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
実験により,L-BRDivは2人共役の幅広い問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
論文 参考訳(メタデータ) (2023-08-18T14:45:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Developing cooperative policies for multi-stage reinforcement learning
tasks [0.0]
多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。
本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。
論文 参考訳(メタデータ) (2022-05-11T01:31:04Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Coordinated Proximal Policy Optimization [28.780862892562308]
Coordinated Proximal Policy Optimization (CoPPO) は、オリジナルの Proximal Policy Optimization (PPO) をマルチエージェント設定に拡張するアルゴリズムである。
我々は,理論的な共同目的を最適化する際の政策改善の単調性を証明する。
そこで我々は,CoPPOにおけるそのような目的がエージェント間の動的信用割り当てを達成し,エージェントポリシーの同時更新時の高分散問題を軽減することができると解釈した。
論文 参考訳(メタデータ) (2021-11-07T11:14:19Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。