論文の概要: Single-agent to Multi-agent in Deep Reinforcement-learning
- arxiv url: http://arxiv.org/abs/2211.15411v2
- Date: Thu, 1 Dec 2022 16:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:57:08.692881
- Title: Single-agent to Multi-agent in Deep Reinforcement-learning
- Title(参考訳): 深層強化学習におけるシングルエージェントとマルチエージェント
- Authors: Nitsan Soffair
- Abstract要約: OW QMIX, CW QMIX, QTRAN, QMIX, VDNはDec-POMDPドメインを解決するための最先端のアルゴリズムである。
このような問題を解決するための2段階のアルゴリズムを提案する。
第1段階では、単一エージェント問題(POMDP)を解き、最適なポリシートレースを得る。
第2段階では、単一エージェント最適ポリシートレースを用いてマルチエージェント問題(Dec-POMDP)を解く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: OW QMIX, CW QMIX, QTRAN, QMIX, and VDN are the state-of-the-art algorithms
for solving Dec-POMDP domains. OW QMIX, CW QMIX, QTRAN, QMIX, and VDN failed to
solve complex agents' cooperation domains such as box-pushing. We give a
2-stage algorithm to solve such problems. On 1st stage we solve single-agent
problem (POMDP) and get an optimal policy traces. On 2nd stage we solve
multi-agent problem (Dec-POMDP) with the single-agent optimal policy traces.
Single-agent to multi-agent has a clear advantage over OW QMIX, CW QMIX, QTRAN,
QMIX, and VDN on complex agents' cooperative domains.
- Abstract(参考訳): OW QMIX, CW QMIX, QTRAN, QMIX, VDNはDec-POMDPドメインを解決するための最先端のアルゴリズムである。
OW QMIX, CW QMIX, QTRAN, QMIX, VDN はボックス処理のような複雑なエージェントの協調ドメインの解決に失敗した。
このような問題を解決するために2段階のアルゴリズムを与える。
第1段階では、単一エージェント問題(POMDP)を解き、最適なポリシートレースを得る。
第2段階では,単一エージェント最適政策トレースを用いてマルチエージェント問題(dec-pomdp)を解く。
単一エージェントとマルチエージェントは、複雑なエージェントの協調ドメインにおけるOW QMIX、CW QMIX、QTRAN、QMIX、VDNに対して明確な優位性を持つ。
関連論文リスト
- Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文 参考訳(メタデータ) (2020-08-14T07:37:44Z) - Multi-Agent Reinforcement Learning for Problems with Combined Individual
and Team Reward [0.0]
本稿では,新しい多エージェント強化学習フレームワークであるDecomposed Multi-Agent Deep Deterministic Policy Gradient (DE-MADDPG)を提案する。
提案手法は,MADDPGアルゴリズムの直接適応よりもはるかに優れた,より安定した性能が得られることを示す。
論文 参考訳(メタデータ) (2020-03-24T00:55:37Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。