論文の概要: Single-agent to Multi-agent in Deep Reinforcement-learning
- arxiv url: http://arxiv.org/abs/2211.15411v2
- Date: Thu, 1 Dec 2022 16:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:57:08.692881
- Title: Single-agent to Multi-agent in Deep Reinforcement-learning
- Title(参考訳): 深層強化学習におけるシングルエージェントとマルチエージェント
- Authors: Nitsan Soffair
- Abstract要約: OW QMIX, CW QMIX, QTRAN, QMIX, VDNはDec-POMDPドメインを解決するための最先端のアルゴリズムである。
このような問題を解決するための2段階のアルゴリズムを提案する。
第1段階では、単一エージェント問題(POMDP)を解き、最適なポリシートレースを得る。
第2段階では、単一エージェント最適ポリシートレースを用いてマルチエージェント問題(Dec-POMDP)を解く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OW QMIX, CW QMIX, QTRAN, QMIX, and VDN are the state-of-the-art algorithms
for solving Dec-POMDP domains. OW QMIX, CW QMIX, QTRAN, QMIX, and VDN failed to
solve complex agents' cooperation domains such as box-pushing. We give a
2-stage algorithm to solve such problems. On 1st stage we solve single-agent
problem (POMDP) and get an optimal policy traces. On 2nd stage we solve
multi-agent problem (Dec-POMDP) with the single-agent optimal policy traces.
Single-agent to multi-agent has a clear advantage over OW QMIX, CW QMIX, QTRAN,
QMIX, and VDN on complex agents' cooperative domains.
- Abstract(参考訳): OW QMIX, CW QMIX, QTRAN, QMIX, VDNはDec-POMDPドメインを解決するための最先端のアルゴリズムである。
OW QMIX, CW QMIX, QTRAN, QMIX, VDN はボックス処理のような複雑なエージェントの協調ドメインの解決に失敗した。
このような問題を解決するために2段階のアルゴリズムを与える。
第1段階では、単一エージェント問題(POMDP)を解き、最適なポリシートレースを得る。
第2段階では,単一エージェント最適政策トレースを用いてマルチエージェント問題(dec-pomdp)を解く。
単一エージェントとマルチエージェントは、複雑なエージェントの協調ドメインにおけるOW QMIX、CW QMIX、QTRAN、QMIX、VDNに対して明確な優位性を持つ。
関連論文リスト
- Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Mix-ME: Quality-Diversity for Multi-Agent Learning [11.130914000431353]
人気のMAP-Elitesアルゴリズムのマルチエージェント版であるMix-MEを紹介する。
提案手法は,可観測性のある連続制御タスクの多種多様について評価する。
論文 参考訳(メタデータ) (2023-11-03T10:36:54Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal
Sequencing and Path Finding [10.354181009277623]
監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、多数の目標地点を安全に訪問することがしばしば期待されている。
本稿では、このマルチエージェント問題に対する最適解を計算するMS*と呼ばれる新しいアルゴリズムを紹介します。
計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。
論文 参考訳(メタデータ) (2021-03-18T01:57:35Z) - Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文 参考訳(メタデータ) (2020-08-14T07:37:44Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。