論文の概要: Robustness to Multi-Modal Environment Uncertainty in MARL using
Curriculum Learning
- arxiv url: http://arxiv.org/abs/2310.08746v1
- Date: Thu, 12 Oct 2023 22:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:25:03.222790
- Title: Robustness to Multi-Modal Environment Uncertainty in MARL using
Curriculum Learning
- Title(参考訳): カリキュラム学習によるマルチモーダル環境の不確かさへのロバスト性
- Authors: Aakriti Agrawal, Rohith Aralikatti, Yanchao Sun, Furong Huang
- Abstract要約: この研究は、MARLにおけるマルチモーダル環境の不確実性に対するロバスト性に関する一般的な問題を定式化した最初のものである。
我々は2つの異なる環境不確実性を同時に処理し、協調的および競争的なMARL環境において広範な結果を示す。
- 参考スコア(独自算出の注目度): 35.671725515559054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) plays a pivotal role in tackling
real-world challenges. However, the seamless transition of trained policies
from simulations to real-world requires it to be robust to various
environmental uncertainties. Existing works focus on finding Nash Equilibrium
or the optimal policy under uncertainty in one environment variable (i.e.
action, state or reward). This is because a multi-agent system itself is highly
complex and unstationary. However, in real-world situation uncertainty can
occur in multiple environment variables simultaneously. This work is the first
to formulate the generalised problem of robustness to multi-modal environment
uncertainty in MARL. To this end, we propose a general robust training approach
for multi-modal uncertainty based on curriculum learning techniques. We handle
two distinct environmental uncertainty simultaneously and present extensive
results across both cooperative and competitive MARL environments,
demonstrating that our approach achieves state-of-the-art levels of robustness.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は現実世界の課題に取り組む上で重要な役割を果たしている。
しかし、シミュレーションから実世界への訓練されたポリシーのシームレスな移行は、様々な環境不確実性に対して堅牢である必要がある。
既存の研究は、ある環境変数(すなわち行動、状態、報酬)における不確実性の下でのナッシュ均衡や最適政策を見つけることに焦点を当てている。
これはマルチエージェントシステム自体が非常に複雑で静止していないためである。
しかし、現実の状況では、複数の環境変数が同時に発生することがある。
この研究は、marlのマルチモーダル環境の不確実性に対するロバスト性の一般化問題を初めて定式化した。
そこで本研究では,カリキュラム学習技術に基づくマルチモーダル不確実性に対する総合的堅牢なトレーニング手法を提案する。
我々は2つの異なる環境不確実性を同時に処理し、協調的および競争的なMARL環境をまたいだ広範な結果を示す。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Policy Learning for Robust Markov Decision Process with a Mismatched
Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。
本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。
我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文 参考訳(メタデータ) (2022-03-13T06:37:25Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。