論文の概要: Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient Algorithms
- arxiv url: http://arxiv.org/abs/2411.00707v1
- Date: Fri, 01 Nov 2024 16:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:41.793012
- Title: Learning in Markov Games with Adaptive Adversaries: Policy Regret, Fundamental Barriers, and Efficient Algorithms
- Title(参考訳): 適応的逆数を持つマルコフゲームにおける学習:ポリシーレグレット、基本障壁、効率的なアルゴリズム
- Authors: Thanh Nguyen-Tang, Raman Arora,
- Abstract要約: 学習者と戦略的相手とのマルコフゲームとしてモデル化された動的に進化する環境における学習について検討する。
これは、学習者が最も安定した政策の順序に従えば達成したであろうリターンと競合することを目的とした、反ファクト的な概念である。
- 参考スコア(独自算出の注目度): 24.928268203611047
- License:
- Abstract: We study learning in a dynamically evolving environment modeled as a Markov game between a learner and a strategic opponent that can adapt to the learner's strategies. While most existing works in Markov games focus on external regret as the learning objective, external regret becomes inadequate when the adversaries are adaptive. In this work, we focus on \emph{policy regret} -- a counterfactual notion that aims to compete with the return that would have been attained if the learner had followed the best fixed sequence of policy, in hindsight. We show that if the opponent has unbounded memory or if it is non-stationary, then sample-efficient learning is not possible. For memory-bounded and stationary, we show that learning is still statistically hard if the set of feasible strategies for the learner is exponentially large. To guarantee learnability, we introduce a new notion of \emph{consistent} adaptive adversaries, wherein, the adversary responds similarly to similar strategies of the learner. We provide algorithms that achieve $\sqrt{T}$ policy regret against memory-bounded, stationary, and consistent adversaries.
- Abstract(参考訳): 我々は,学習者の戦略に適応可能な,学習者と戦略的相手とのマルコフゲームとしてモデル化された動的に進化する環境における学習について研究する。
マルコフゲームにおける既存の作品のほとんどは学習目的としての外部後悔に焦点を当てているが、敵が適応すると外部後悔は不十分になる。
本研究は,学習者が最も安定した政策の順序に従っていた場合,得られたリターンと競合することを目的とした,反実的概念である「emph{policy regret}」に焦点を当てる。
また,非有界メモリや非定常メモリの場合,サンプル効率の学習は不可能であることを示す。
メモリバウンドで定常的な場合、学習者にとって実行可能な戦略の集合が指数関数的に大きい場合、学習は統計的に困難であることを示す。
学習可能性を保証するために,学習者の類似した戦略に類似した,適応的敵のemph{consistent}という新たな概念を導入する。
メモリバウンド、定常、一貫した敵に対して、$\sqrt{T}$ポリシーを後悔するアルゴリズムを提供する。
関連論文リスト
- Adversaries With Incentives: A Strategic Alternative to Adversarial Robustness [11.722685584919757]
敵の訓練は悪意のある相手を守ることを目的としている。
我々のアプローチは、学習の帰納的バイアスとして、相手のインセンティブの可能性に関する知識または信念を使用する。
我々は、敵のインセンティブに関する穏やかな知識がいかに有用であるかを示す一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-17T12:20:59Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Learning what to remember [9.108546206438218]
本稿では,学習者が絶え間ない事実の流れに直面する生涯学習シナリオについて考察し,その記憶に保持すべきものを決定する。
オンライン学習フレームワークに基づく数学的モデルを導入し、学習者は記憶に制約のある専門家の集合に対して自己測定を行う。
このメモリ制約のあるシナリオにおいて乗算重み更新アルゴリズムを用いることの難しさを特定し、後悔の保証が最良に近い代替スキームを設計する。
論文 参考訳(メタデータ) (2022-01-11T06:42:50Z) - Inverse Reinforcement Learning for Strategy Identification [2.6572330982240935]
敵対的環境では、一方が相手の戦略を特定することで有利になる。
本稿では、逆強化学習(IRL)を用いて、敵環境における戦略を特定することを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:22:52Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Online Learning in Unknown Markov Games [55.07327246187741]
未知のマルコフゲームでオンライン学習を学ぶ。
後方視における最良の反応に対するサブ線形後悔の達成は統計的に困難であることを示す。
サブ線形$tildemathcalO(K2/3)$ regretを$K$のエピソード後に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:52:15Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient Use of heuristics for accelerating XCS-based Policy Learning
in Markov Games [9.038065438586065]
ゲームでは、学習能力を持つ非定常的な対戦相手と対戦することは、強化学習エージェントにとって依然として困難である。
本稿では,協調学習者と対戦する際の政策学習を高速化するために,粗い論文を効果的に活用することを提案する。
論文 参考訳(メタデータ) (2020-05-26T07:47:27Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。