論文の概要: Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency
- arxiv url: http://arxiv.org/abs/2102.02981v1
- Date: Fri, 5 Feb 2021 03:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 16:47:19.799651
- Title: Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency
- Title(参考訳): Minimax Offline Reinforcement Learningの有限サンプル分析:完全性、高速速度、および第一次効率
- Authors: Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun,
Tengyang Xie
- Abstract要約: 強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
- 参考スコア(独自算出の注目度): 83.02999769628593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We offer a theoretical characterization of off-policy evaluation (OPE) in
reinforcement learning using function approximation for marginal importance
weights and $q$-functions when these are estimated using recent minimax
methods. Under various combinations of realizability and completeness
assumptions, we show that the minimax approach enables us to achieve a fast
rate of convergence for weights and quality functions, characterized by the
critical inequality \citep{bartlett2005}. Based on this result, we analyze
convergence rates for OPE. In particular, we introduce novel alternative
completeness conditions under which OPE is feasible and we present the first
finite-sample result with first-order efficiency in non-tabular environments,
i.e., having the minimal coefficient in the leading term.
- Abstract(参考訳): 最近の最小値法を用いて推定した場合の限界重みと$q$-関数に対する関数近似を用いた強化学習におけるオフポリシ評価(OPE)の理論的評価を行う。
実現可能性と完全性の仮定の様々な組み合わせの下で、ミニマックスアプローチは、臨界不等式 \citep{bartlett2005} を特徴とする重みと品質関数の高速収束を達成することができることを示す。
この結果に基づき、OPEの収束率を分析します。
特に、OPEが実現可能な新規な代替完全性条件を導入し、非立方体環境における第一次効率、すなわち最短係数を先導的に有する最初の有限サンプル結果を提示する。
関連論文リスト
- Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum
Problems [42.375903320536715]
エントロピック・フィクション・プレイ(英語: Entropic fictitious Play, EFP)は、測度空間における凸関数とエントロピーの和を最小化するアルゴリズムである。
学習問題が有限サム構造を示すような環境では、EFPの簡潔な原始双対解析を行う。
論文 参考訳(メタデータ) (2023-03-06T08:05:08Z) - On Undersmoothing and Sample Splitting for Estimating a Doubly Robust
Functional [0.0]
二つの頑健な非パラメトリック関数に対する最小値速度最適推定器を構築することの問題点を考察する。
ミニマックス速度最適推定器は通常、プラグインとワンステップ型推定器の高次偏差補正によって構築される。
論文 参考訳(メタデータ) (2022-12-30T18:17:06Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - SGD for Structured Nonconvex Functions: Learning Rates, Minibatching and
Interpolation [17.199023009789308]
予想されるSGD(SGD)の仮定は、非アーティザン関数に対して日常的に使われている。
本稿では,スムーズな非線形設定への収束のパラダイムを示す。
また,異なるステップサイズ条件の理論的保証も提供する。
論文 参考訳(メタデータ) (2020-06-18T07:05:56Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。