論文の概要: Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation
- arxiv url: http://arxiv.org/abs/2203.07322v1
- Date: Mon, 14 Mar 2022 17:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 18:14:41.768349
- Title: Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation
- Title(参考訳): 最適平衡計算による効率的なモデルベースマルチエージェント強化学習
- Authors: Pier Giuseppe Sessa, Maryam Kamgarpour, Andreas Krause
- Abstract要約: H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
- 参考スコア(独自算出の注目度): 93.52573037053449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider model-based multi-agent reinforcement learning, where the
environment transition model is unknown and can only be learned via expensive
interactions with the environment. We propose H-MARL (Hallucinated Multi-Agent
Reinforcement Learning), a novel sample-efficient algorithm that can
efficiently balance exploration, i.e., learning about the environment, and
exploitation, i.e., achieve good equilibrium performance in the underlying
general-sum Markov game. H-MARL builds high-probability confidence intervals
around the unknown transition model and sequentially updates them based on
newly observed data. Using these, it constructs an optimistic hallucinated game
for the agents for which equilibrium policies are computed at each round. We
consider general statistical models (e.g., Gaussian processes, deep ensembles,
etc.) and policy classes (e.g., deep neural networks), and theoretically
analyze our approach by bounding the agents' dynamic regret. Moreover, we
provide a convergence rate to the equilibria of the underlying Markov game. We
demonstrate our approach experimentally on an autonomous driving simulation
benchmark. H-MARL learns successful equilibrium policies after a few
interactions with the environment and can significantly improve the performance
compared to non-exploratory methods.
- Abstract(参考訳): 環境遷移モデルが未知であり、環境との高価な相互作用によってのみ学習できるモデルベースマルチエージェント強化学習を考える。
本稿では,H-MARL(Hallucinated Multi-Agent Reinforcement Learning)を提案する。このアルゴリズムは,探索,環境学習,利用,すなわち,基礎となる汎用マルコフゲームにおいて,優れた平衡性能を実現することができる。
H-MARLは未知の遷移モデルの周りに高確率信頼区間を構築し、新たに観測されたデータに基づいて順次更新する。
これらを用いて、各ラウンドで平衡ポリシーが計算されるエージェントに対して楽観的な幻覚ゲームを構築する。
我々は,一般統計モデル(ガウス過程,深層アンサンブルなど)と政策クラス(ディープニューラルネットワークなど)を検討し,エージェントの動的後悔を束縛して理論的に解析する。
さらに、基礎となるマルコフゲームの平衡に収束率を与える。
我々は自律運転シミュレーションベンチマークで実験を行った。
H-MARLは、環境と数回相互作用した後の平衡政策を学習し、非探索法と比較して性能を著しく向上させることができる。
関連論文リスト
- Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent
Reinforcement Learning [15.12491397254381]
本稿では,暗黙的なモデルに基づくマルチエージェント強化学習手法を提案する。
この方法では,エージェントは学習した仮想環境と対話し,将来の予測状態に応じて現在の状態値を評価することができる。
論文 参考訳(メタデータ) (2022-04-20T12:16:27Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。