論文の概要: Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency
- arxiv url: http://arxiv.org/abs/2102.02981v1
- Date: Fri, 5 Feb 2021 03:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 16:47:19.799651
- Title: Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency
- Title(参考訳): Minimax Offline Reinforcement Learningの有限サンプル分析:完全性、高速速度、および第一次効率
- Authors: Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun,
Tengyang Xie
- Abstract要約: 強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
- 参考スコア(独自算出の注目度): 83.02999769628593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We offer a theoretical characterization of off-policy evaluation (OPE) in
reinforcement learning using function approximation for marginal importance
weights and $q$-functions when these are estimated using recent minimax
methods. Under various combinations of realizability and completeness
assumptions, we show that the minimax approach enables us to achieve a fast
rate of convergence for weights and quality functions, characterized by the
critical inequality \citep{bartlett2005}. Based on this result, we analyze
convergence rates for OPE. In particular, we introduce novel alternative
completeness conditions under which OPE is feasible and we present the first
finite-sample result with first-order efficiency in non-tabular environments,
i.e., having the minimal coefficient in the leading term.
- Abstract(参考訳): 最近の最小値法を用いて推定した場合の限界重みと$q$-関数に対する関数近似を用いた強化学習におけるオフポリシ評価(OPE)の理論的評価を行う。
実現可能性と完全性の仮定の様々な組み合わせの下で、ミニマックスアプローチは、臨界不等式 \citep{bartlett2005} を特徴とする重みと品質関数の高速収束を達成することができることを示す。
この結果に基づき、OPEの収束率を分析します。
特に、OPEが実現可能な新規な代替完全性条件を導入し、非立方体環境における第一次効率、すなわち最短係数を先導的に有する最初の有限サンプル結果を提示する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Tighter Performance Theory of FedExProx [85.92481138826949]
我々は最近提案した分散最適化法であるFedExProxを再検討し,外挿による並列アルゴリズムの収束特性の向上を図った。
非強凸二次問題に対して、より厳密な線形収束率を確立するための新しい解析フレームワークを開発する。
解析の応用性はPolyak-Lojasiewicz条件を満たす一般関数に拡張され、以前の強い凸解析よりも優れていた。
論文 参考訳(メタデータ) (2024-10-20T11:53:25Z) - Nonparametric Instrumental Variable Regression through Stochastic Approximate Gradients [0.3277163122167434]
集団リスクを直接最小化することにより,NPIV回帰に対処するための関数勾配降下アルゴリズムの定式化方法を示す。
我々は,過大なリスクに対するバウンダリの形で理論的支援を行い,提案手法の優れた安定性と競争性能を示す数値実験を行った。
このアルゴリズムは、ニューラルネットワークやカーネルベースの手法のような柔軟な推定器の選択と、非二次的損失関数を可能にする。
論文 参考訳(メタデータ) (2024-02-08T12:50:38Z) - Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum
Problems [42.375903320536715]
エントロピック・フィクション・プレイ(英語: Entropic fictitious Play, EFP)は、測度空間における凸関数とエントロピーの和を最小化するアルゴリズムである。
学習問題が有限サム構造を示すような環境では、EFPの簡潔な原始双対解析を行う。
論文 参考訳(メタデータ) (2023-03-06T08:05:08Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - SGD for Structured Nonconvex Functions: Learning Rates, Minibatching and
Interpolation [17.199023009789308]
予想されるSGD(SGD)の仮定は、非アーティザン関数に対して日常的に使われている。
本稿では,スムーズな非線形設定への収束のパラダイムを示す。
また,異なるステップサイズ条件の理論的保証も提供する。
論文 参考訳(メタデータ) (2020-06-18T07:05:56Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。