論文の概要: Corruption-Robust Offline Two-Player Zero-Sum Markov Games
- arxiv url: http://arxiv.org/abs/2403.07933v1
- Date: Mon, 4 Mar 2024 12:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-17 16:41:26.705161
- Title: Corruption-Robust Offline Two-Player Zero-Sum Markov Games
- Title(参考訳): オフライン2人プレイのゼロサムマルコフゲーム
- Authors: Andi Nika, Debmalya Mandal, Adish Singla, Goran Radanović,
- Abstract要約: オフライン2プレイヤーゼロサムマルコフゲームにおけるデータ破損の堅牢性について検討する。
データカバレッジと汚職の程度が異なる線形マルコフゲームにおいてこの問題を考える。
- 参考スコア(独自算出の注目度): 23.530166315532828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study data corruption robustness in offline two-player zero-sum Markov games. Given a dataset of realized trajectories of two players, an adversary is allowed to modify an $\epsilon$-fraction of it. The learner's goal is to identify an approximate Nash Equilibrium policy pair from the corrupted data. We consider this problem in linear Markov games under different degrees of data coverage and corruption. We start by providing an information-theoretic lower bound on the suboptimality gap of any learner. Next, we propose robust versions of the Pessimistic Minimax Value Iteration algorithm, both under coverage on the corrupted data and under coverage only on the clean data, and show that they achieve (near)-optimal suboptimality gap bounds with respect to $\epsilon$. We note that we are the first to provide such a characterization of the problem of learning approximate Nash Equilibrium policies in offline two-player zero-sum Markov games under data corruption.
- Abstract(参考訳): オフライン2プレイヤーゼロサムマルコフゲームにおけるデータ破損の堅牢性について検討する。
2人のプレーヤーの現実的な軌跡のデータセットが与えられた場合、相手は$\epsilon$-fractionを変更できる。
学習者の目標は、破損したデータから近似的なナッシュ平衡ポリシーペアを特定することである。
データカバレッジと汚職の程度が異なる線形マルコフゲームにおいてこの問題を考える。
まず、学習者の最適度以下のギャップに情報理論の下限を与える。
次に,悲観的最小値イテレーションアルゴリズムのロバストなバージョンを提案する。これは,破損したデータとクリーンなデータのみを対象とするものである。
データ破損下でのオフライン2プレイヤーゼロサムマルコフゲームにおいて、Nash平衡ポリシーを学習する問題を初めて評価した点に留意する。
関連論文リスト
- Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value [15.671795887007383]
本稿では,ゲームデザイナや悪意ある相手がゼロサムマルコフゲームの報酬関数を変更するゲーム修正問題について検討する。
ゲームの一意平衡としてインストール可能なポリシープロファイルの集合を特徴付け,インストールを成功させるために十分な,必要な条件を確立する。
論文 参考訳(メタデータ) (2023-11-01T15:27:29Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games
with Bandit Feedback [49.1061436241109]
非漸近収束率の非結合、収束、合理的なアルゴリズムの開発に注力する。
我々のアルゴリズムは[Chen et al., 2021, Cen et al., 2021]と関係があり、エントロピー正規化技術に基づいている。
論文 参考訳(メタデータ) (2023-03-05T18:08:54Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
同時動作による2プレイヤーゼロサムマルコフゲームの強化学習について検討した。
我々は,「不確かさの最適性」に基づくアルゴリズムナッシュ-UCRL-VTRを提案する。
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。