論文の概要: On Solving Cooperative MARL Problems with a Few Good Experiences
- arxiv url: http://arxiv.org/abs/2001.07993v1
- Date: Wed, 22 Jan 2020 12:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:14:24.036365
- Title: On Solving Cooperative MARL Problems with a Few Good Experiences
- Title(参考訳): 協調的MARL問題の解決について : 若干の経験から
- Authors: Rajiv Ranjan Kumar, Pradeep Varakantham
- Abstract要約: 協調型マルチエージェント強化学習(MARL)は,協調型分散型意思決定学習において重要である。
捜索と救助、ドローンの監視、荷物の配達、消防戦といった多くの領域において、重要な課題は、いくつかの良い経験から学ぶことだ。
非定常性と疎結合な良好な経験を同時に扱える新しい架空の自己模倣手法を提供する。
- 参考スコア(独自算出の注目度): 8.596915685049511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative Multi-agent Reinforcement Learning (MARL) is crucial for
cooperative decentralized decision learning in many domains such as search and
rescue, drone surveillance, package delivery and fire fighting problems. In
these domains, a key challenge is learning with a few good experiences, i.e.,
positive reinforcements are obtained only in a few situations (e.g., on
extinguishing a fire or tracking a crime or delivering a package) and in most
other situations there is zero or negative reinforcement. Learning decisions
with a few good experiences is extremely challenging in cooperative MARL
problems due to three reasons. First, compared to the single agent case,
exploration is harder as multiple agents have to be coordinated to receive a
good experience. Second, environment is not stationary as all the agents are
learning at the same time (and hence change policies). Third, scale of problem
increases significantly with every additional agent.
Relevant existing work is extensive and has focussed on dealing with a few
good experiences in single-agent RL problems or on scalable approaches for
handling non-stationarity in MARL problems. Unfortunately, neither of these
approaches (or their extensions) are able to address the problem of sparse good
experiences effectively. Therefore, we provide a novel fictitious self
imitation approach that is able to simultaneously handle non-stationarity and
sparse good experiences in a scalable manner. Finally, we provide a thorough
comparison (experimental or descriptive) against relevant cooperative MARL
algorithms to demonstrate the utility of our approach.
- Abstract(参考訳): 協調型マルチエージェント強化学習(marl)は、捜索救助、ドローンの監視、パッケージ配送、消防活動といった多くの分野における協調的分散意思決定に不可欠である。
これらの領域において、重要な課題は、いくつかの良い経験を積んで学ぶことである。つまり、ポジティブな強化は、いくつかの状況(例えば、火災を消したり、犯罪を追跡したり、パッケージを届けたり)でのみ得られ、その他の状況では、ゼロか負の強化がある。
いくつかの優れた経験による意思決定は、3つの理由から、協調的marl問題において極めて困難である。
まず、単一のエージェントケースと比較して、良い経験を得るために複数のエージェントを調整しなければならないため、探索は困難である。
第2に、すべてのエージェントが同時に学習している(従ってポリシの変更)ため、環境は定常的ではない。
第三に、問題の大きさは追加のエージェントごとに大きく増加する。
関連する既存の作業は幅広く、シングルエージェントRL問題や、MARL問題における非定常性を扱うためのスケーラブルなアプローチにおいて、いくつかの優れた経験を扱うことに重点を置いている。
残念なことに、これらのアプローチ(またはその拡張)はどちらも、まばらな良い経験を効果的に解決することができない。
そこで本稿では,非定常性と疎結合な経験をスケーラブルな方法で同時に処理できる,斬新な自己模倣手法を提案する。
最後に,本手法の有用性を実証するために,関連する協調的marlアルゴリズムとの比較(実験的,記述的)を行う。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Learning Independently from Causality in Multi-Agent Environments [0.0]
MARL(Multi-Agent Reinforcement Learning)は、機械学習分野への関心が高まっている分野である。
遅延エージェントの病理はMARLで有名な問題であり、MARLチームのエージェントが共通の目標に寄与していない場合にイベントを表す。
エージェントは協調戦略を学習し、個々の観察とチームの報酬との間に因果関係があることを示す。
論文 参考訳(メタデータ) (2023-11-05T19:12:08Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning [11.292086312664383]
提案アルゴリズムはSEAC (Shared Experience Actor-Critic) と呼ばれ,アクター・クリティカル・フレームワークに経験共有を適用した。
スパース・リワード型マルチエージェント環境におけるSEACの評価を行い、2つのベースラインと2つの最先端アルゴリズムを一貫して上回っていることを確認した。
論文 参考訳(メタデータ) (2020-06-12T13:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。