論文の概要: Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty
- arxiv url: http://arxiv.org/abs/2404.18909v3
- Date: Thu, 9 May 2024 01:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 15:31:42.686214
- Title: Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty
- Title(参考訳): 環境不確かさに直面した実効的ロバスト多エージェント強化学習
- Authors: Laixi Shi, Eric Mazumdar, Yuejie Chi, Adam Wierman,
- Abstract要約: 本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
- 参考スコア(独自算出の注目度): 40.55653383218379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To overcome the sim-to-real gap in reinforcement learning (RL), learned policies must maintain robustness against environmental uncertainties. While robust RL has been widely studied in single-agent regimes, in multi-agent environments, the problem remains understudied -- despite the fact that the problems posed by environmental uncertainties are often exacerbated by strategic interactions. This work focuses on learning in distributionally robust Markov games (RMGs), a robust variant of standard Markov games, wherein each agent aims to learn a policy that maximizes its own worst-case performance when the deployed environment deviates within its own prescribed uncertainty set. This results in a set of robust equilibrium strategies for all agents that align with classic notions of game-theoretic equilibria. Assuming a non-adaptive sampling mechanism from a generative model, we propose a sample-efficient model-based algorithm (DRNVI) with finite-sample complexity guarantees for learning robust variants of various notions of game-theoretic equilibria. We also establish an information-theoretic lower bound for solving RMGs, which confirms the near-optimal sample complexity of DRNVI with respect to problem-dependent factors such as the size of the state space, the target accuracy, and the horizon length.
- Abstract(参考訳): 強化学習(RL)におけるシモン・トゥ・リアルギャップを克服するためには、学習政策は環境の不確実性に対する堅牢性を維持する必要がある。
頑健なRLは単一エージェント体制、マルチエージェント環境において広く研究されているが、環境の不確実性に起因する問題は戦略的な相互作用によって悪化することが多いにもかかわらず、問題は未検討のままである。
この研究は、標準マルコフゲーム(RMG)の堅牢な変形である分散ロバストなマルコフゲーム(RMG)の学習に焦点を当て、各エージェントは、デプロイされた環境が所定の不確実性セット内で逸脱した場合の最悪のパフォーマンスを最大化するポリシーを学ぶことを目的としている。
この結果、ゲーム理論平衡の古典的な概念と整合する全てのエージェントに対して、堅牢な平衡戦略のセットが得られる。
生成モデルから非適応サンプリング機構を仮定し、ゲーム理論平衡の様々な概念の頑健な変種を学習するための有限サンプル複雑性保証付きサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
また、状態空間のサイズ、目標精度、地平線長といった問題に依存した要因に関して、DRNVIのほぼ最適サンプル複雑性を確認するための情報理論の下限を確立した。
関連論文リスト
- Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Robustness to Multi-Modal Environment Uncertainty in MARL using
Curriculum Learning [35.671725515559054]
この研究は、MARLにおけるマルチモーダル環境の不確実性に対するロバスト性に関する一般的な問題を定式化した最初のものである。
我々は2つの異なる環境不確実性を同時に処理し、協調的および競争的なMARL環境において広範な結果を示す。
論文 参考訳(メタデータ) (2023-10-12T22:19:36Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Policy Learning for Robust Markov Decision Process with a Mismatched
Generative Model [42.28001762749647]
医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。
本稿では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。
我々のゴールは、さらなる技術的困難をもたらす、摂動テスト環境に対するほぼ最適のロバストなポリシーを特定することです。
論文 参考訳(メタデータ) (2022-03-13T06:37:25Z) - Invariant Risk Minimization Games [48.00018458720443]
本研究では,複数の環境においてアンサンブルゲームのナッシュ平衡を求めるような不変リスク最小化を行う。
そこで我々は,本実験における最適応答力学と平衡を用いた簡単なトレーニングアルゴリズムを開発し,Arjovskyらの難解な二段階最適化問題よりもはるかに低いばらつきで,同様の,あるいは優れた経験的精度が得られることを示した。
論文 参考訳(メタデータ) (2020-02-11T21:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。