論文の概要: On the Optimality of Batch Policy Optimization Algorithms
- arxiv url: http://arxiv.org/abs/2104.02293v1
- Date: Tue, 6 Apr 2021 05:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:59:55.105047
- Title: On the Optimality of Batch Policy Optimization Algorithms
- Title(参考訳): バッチポリシ最適化アルゴリズムの最適性について
- Authors: Chenjun Xiao, Yifan Wu, Tor Lattimore, Bo Dai, Jincheng Mei, Lihong
Li, Csaba Szepesvari, Dale Schuurmans
- Abstract要約: バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
- 参考スコア(独自算出の注目度): 106.89498352537682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch policy optimization considers leveraging existing data for policy
construction before interacting with an environment. Although interest in this
problem has grown significantly in recent years, its theoretical foundations
remain under-developed. To advance the understanding of this problem, we
provide three results that characterize the limits and possibilities of batch
policy optimization in the finite-armed stochastic bandit setting. First, we
introduce a class of confidence-adjusted index algorithms that unifies
optimistic and pessimistic principles in a common framework, which enables a
general analysis. For this family, we show that any confidence-adjusted index
algorithm is minimax optimal, whether it be optimistic, pessimistic or neutral.
Our analysis reveals that instance-dependent optimality, commonly used to
establish optimality of on-line stochastic bandit algorithms, cannot be
achieved by any algorithm in the batch setting. In particular, for any
algorithm that performs optimally in some environment, there exists another
environment where the same algorithm suffers arbitrarily larger regret.
Therefore, to establish a framework for distinguishing algorithms, we introduce
a new weighted-minimax criterion that considers the inherent difficulty of
optimal value prediction. We demonstrate how this criterion can be used to
justify commonly used pessimistic principles for batch policy optimization.
- Abstract(参考訳): バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
この問題に対する関心は近年大きく高まっているが、理論的基礎は未開発のままである。
この問題を理解するために,有限腕確率帯域設定におけるバッチポリシー最適化の限界と可能性を特徴付ける3つの結果を提案する。
まず,楽観的かつ悲観的な原理を共通フレームワークに統合し,一般的な分析を可能にする信頼調整インデックスアルゴリズムのクラスを導入する。
このファミリーに対して、信頼度調整されたインデックスアルゴリズムは、楽観的でも悲観的でも中立でも、極小最適であることを示す。
解析の結果,オンライン確率バンディットアルゴリズムの最適性を確立するために一般的に用いられるインスタンス依存最適性は,バッチ設定の任意のアルゴリズムでは達成できないことが明らかとなった。
特に、ある環境で最適に実行するアルゴリズムには、同じアルゴリズムが任意により大きな後悔に苦しむ別の環境が存在する。
そこで,アルゴリズムを識別する枠組みを確立するために,最適値予測の難しさを考慮に入れた新たな重み付き最小基準を導入する。
この基準を用いて、バッチポリシー最適化の悲観的な原則を正当化する方法について実証する。
関連論文リスト
- e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Bayesian Safe Policy Learning with Chance Constrained Optimization: Application to Military Security Assessment during the Vietnam War [0.0]
ベトナム戦争で採用されたセキュリティアセスメントアルゴリズムを改善できるかどうかを検討する。
この経験的応用は、アルゴリズムによる意思決定においてしばしば発生するいくつかの方法論的課題を提起する。
論文 参考訳(メタデータ) (2023-07-17T20:59:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Soft-Robust Algorithms for Batch Reinforcement Learning [36.78967245470449]
強化学習では、限られたデータによる堅牢な意思決定問題は、通常パーセンタイル基準によって計算される。
平均性能を最適化し無視することが難しいため、パーセンタイル基準は理論的ではないことを示す。
パーセンタイル基準を最適化するアルゴリズムを2つ提案し,解析する。
論文 参考訳(メタデータ) (2020-11-30T01:36:16Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - The Importance of Pessimism in Fixed-Dataset Policy Optimization [32.22700716592194]
我々は、固定データセットポリシー最適化アルゴリズムの戻り値に関する最悪の保証について検討する。
ナイーブなアプローチでは、誤った値過大評価の可能性は、困難で満足な要求に繋がる。
データセットがすべてのポリシに通知されない場合でも,悲観的アルゴリズムが優れたパフォーマンスを達成できる理由を示す。
論文 参考訳(メタデータ) (2020-09-15T00:18:34Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。