論文の概要: Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
- arxiv url: http://arxiv.org/abs/2007.02141v2
- Date: Thu, 24 Dec 2020 08:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:19:11.885944
- Title: Off-Policy Exploitability-Evaluation in Two-Player Zero-Sum Markov Games
- Title(参考訳): 2プレイヤーゼロサムマルコフゲームにおけるオフポリティ爆発性の評価
- Authors: Kenshi Abe, Yusuke Kaneko
- Abstract要約: オフ・ポリティィ・アセスメント(OPE)は、異なる政策から得られた歴史的データを用いて新しい政策を評価する問題である。
2プレイヤーゼロサムゲームにおける2倍頑健・2倍強化学習推定器によって構成されたOPE推定器を提案する。
そこで我々は,ある政策プロファイルクラスから推定される攻撃可能性を最小限に抑える政策プロファイルを選択することで,最適な政策プロファイルを見つける方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) is the problem of evaluating new policies using
historical data obtained from a different policy. In the recent OPE context,
most studies have focused on single-player cases, and not on multi-player
cases. In this study, we propose OPE estimators constructed by the doubly
robust and double reinforcement learning estimators in two-player zero-sum
Markov games. The proposed estimators project exploitability that is often used
as a metric for determining how close a policy profile (i.e., a tuple of
policies) is to a Nash equilibrium in two-player zero-sum games. We prove the
exploitability estimation error bounds for the proposed estimators. We then
propose the methods to find the best candidate policy profile by selecting the
policy profile that minimizes the estimated exploitability from a given policy
profile class. We prove the regret bounds of the policy profiles selected by
our methods. Finally, we demonstrate the effectiveness and performance of the
proposed estimators through experiments.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)は、異なる政策から得られた歴史的データを用いて新しい政策を評価する問題である。
最近のopeの文脈では、ほとんどの研究はマルチプレイヤーのケースではなく、シングルプレイヤーのケースに焦点を当てている。
本研究では,2プレイヤーゼロサムマルコフゲームにおける2つの頑健かつ二重強化学習推定器によって構成されたOPE推定器を提案する。
提案されたプロジェクトエクスプロイザビリティは、政策プロファイル(つまり、ポリシーのタプル)が2プレイヤーゼロサムゲームにおけるナッシュ均衡にどの程度近いかを決定する指標としてしばしば用いられる。
提案した推定器の可利用性推定誤差境界を検証した。
そこで我々は,ある政策プロファイルクラスから推定される攻撃可能性を最小限に抑える政策プロファイルを選択することで,最適な政策プロファイルを見つける方法を提案する。
当社の手法で選択したポリシープロファイルの後悔の限界を証明します。
最後に,実験を通して提案した推定器の有効性と性能を示す。
関連論文リスト
- OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - SPEED: Experimental Design for Policy Evaluation in Linear
Heteroscedastic Bandits [13.02672341061555]
線形帯域における政策評価のための最適データ収集の問題について検討する。
まず,重み付き最小二乗推定値に対して,重み付き線形帯域設定で最適設計を定式化する。
次に、この定式化を使用して、データ収集中にアクション毎のサンプルの最適な割り当てを導出します。
論文 参考訳(メタデータ) (2023-01-29T04:33:13Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。