論文の概要: Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents
- arxiv url: http://arxiv.org/abs/2008.04109v1
- Date: Thu, 6 Aug 2020 15:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:36:41.968564
- Title: Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents
- Title(参考訳): 二元アクションエージェントを用いた深層qネットワーク型マルチエージェント強化学習
- Authors: Abdul Mueed Hafiz and Ghulam Mohiuddin Bhat
- Abstract要約: 強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
- 参考スコア(独自算出の注目度): 1.8782750537161614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-Network (DQN) based multi-agent systems (MAS) for reinforcement
learning (RL) use various schemes where in the agents have to learn and
communicate. The learning is however specific to each agent and communication
may be satisfactorily designed for the agents. As more complex Deep QNetworks
come to the fore, the overall complexity of the multi-agent system increases
leading to issues like difficulty in training, need for higher resources and
more training time, difficulty in fine-tuning, etc. To address these issues we
propose a simple but efficient DQN based MAS for RL which uses shared state and
rewards, but agent-specific actions, for updation of the experience replay pool
of the DQNs, where each agent is a DQN. The benefits of the approach are
overall simplicity, faster convergence and better performance as compared to
conventional DQN based approaches. It should be noted that the method can be
extended to any DQN. As such we use simple DQN and DDQN (Double Q-learning)
respectively on three separate tasks i.e. Cartpole-v1 (OpenAI Gym environment)
, LunarLander-v2 (OpenAI Gym environment) and Maze Traversal (customized
environment). The proposed approach outperforms the baseline on these tasks by
decent margins respectively.
- Abstract(参考訳): 強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
しかし、学習はそれぞれのエージェントに特異的であり、コミュニケーションはエージェントのために適切に設計される。
より複雑なQNetworksが注目されるにつれて、マルチエージェントシステムの全体的な複雑さは、トレーニングの難しさ、リソースの増大、トレーニング時間の増加、微調整の難しさといった問題につながります。
これらの問題に対処するために,DQN の体験リプレイプールをアップダデーションするために,共有状態と報酬を用いた RL のための単純かつ効率的な DQN ベースの MAS を提案する。
このアプローチの利点は、従来のdqnベースのアプローチと比べて、全体的な単純さ、収束の高速化、パフォーマンスの向上である。
メソッドが任意のDQNに拡張可能である点に注意が必要だ。
そこで我々は,DQNとDDQN(ダブルQ-ラーニング)をそれぞれ,Cartpole-v1(OpenAI Gym環境),LunarLander-v2(OpenAI Gym環境),Maze Traversal(カスタマイズ環境)の3つのタスクで使用する。
提案手法は,これらタスクのベースラインをそれぞれ適度なマージンで上回っている。
関連論文リスト
- Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors [3.9801926395657325]
本稿では,Max,Nash,Maximinの戦略を用いて,様々なQベクトルを学習できるディープQ-networks(DQN)アルゴリズムを提案する。
このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。
論文 参考訳(メタデータ) (2024-06-12T03:30:10Z) - Weakly Coupled Deep Q-Networks [5.76924666595801]
弱結合マルコフ決定過程(WCMDP)の性能を向上させる新しい深層強化学習アルゴリズムを提案する。
WCDQNは、複数のDQN"サブエージェント"を訓練するために1つのネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
論文 参考訳(メタデータ) (2023-10-28T20:07:57Z) - Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled
Mobile Communications [1.3053649021965603]
無人航空機(UAV)は、アドホックな通信インフラを提供するために、航空基地局としてますます使われている。
本稿では,地上通信インフラのないモバイルユーザに対して,複数のUAVを無線通信に利用することに焦点を当てる。
システムスループットを最大化するために,UAV 3DトラジェクトリとNOMAパワーアロケーションを共同で最適化する。
論文 参考訳(メタデータ) (2023-03-29T14:41:03Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Efficient Ridesharing Dispatch Using Multi-Agent Reinforcement Learning [0.0]
UberやLyftのようなライドシェアリングサービスは、乗客が車を拾うように注文できるサービスを提供している。
ライドシェアリング問題を解決するための従来の強化学習(RL)に基づく手法は、タクシーが運用する複雑な環境を正確にモデル化することができない。
固定グリッドサイズでのIDQNベースラインよりも優れた性能を示し、より小さなグリッドサイズやより大きなグリッドサイズに最適化できることを示す。
当社のアルゴリズムは,各エピソードの乗客数や車両数が変動するシナリオにおいて,IDQNベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-18T23:37:53Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。