論文の概要: Generalized Policy Elimination: an efficient algorithm for Nonparametric
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2003.02873v1
- Date: Thu, 5 Mar 2020 19:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:43:07.985883
- Title: Generalized Policy Elimination: an efficient algorithm for Nonparametric
Contextual Bandits
- Title(参考訳): 一般化政策排除:非パラメトリックな帯域の効率的なアルゴリズム
- Authors: Aur\'elien F. Bibaut, Antoine Chambaz, Mark J. van der Laan
- Abstract要約: 統合可能なエントロピーを持つ政策クラスに対して,GPEは(対数的要因まで)後悔最適であることを示す。
より大きなエントロピーを持つクラスに対して、GPEの分析に使用されるコア技術は、現在最も優れたアルゴリズムと一致することを後悔した$varepsilon$-greedyアルゴリズムの設計に利用できることを示す。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Generalized Policy Elimination (GPE) algorithm, an
oracle-efficient contextual bandit (CB) algorithm inspired by the Policy
Elimination algorithm of \cite{dudik2011}. We prove the first regret optimality
guarantee theorem for an oracle-efficient CB algorithm competing against a
nonparametric class with infinite VC-dimension. Specifically, we show that GPE
is regret-optimal (up to logarithmic factors) for policy classes with
integrable entropy. For classes with larger entropy, we show that the core
techniques used to analyze GPE can be used to design an $\varepsilon$-greedy
algorithm with regret bound matching that of the best algorithms to date. We
illustrate the applicability of our algorithms and theorems with examples of
large nonparametric policy classes, for which the relevant optimization oracles
can be efficiently implemented.
- Abstract(参考訳): 我々は, oracle の効率的なコンテクスト・バンディット(cb)アルゴリズムであるgpeアルゴリズムを提案し,このアルゴリズムは \cite{dudik2011} のポリシー除去アルゴリズムに着想を得たものである。
無限のVC次元を持つ非パラメトリッククラスと競合するオラクル効率CBアルゴリズムに対する最初の後悔最適性保証定理を証明する。
具体的には、GPEは可積分エントロピーを持つ政策クラスに対して、後悔最適(対数因子まで)であることを示す。
より大きなエントロピーを持つクラスに対して、GPEの分析に使用されるコア技術は、これまでで最高のアルゴリズムと一致することを後悔した$\varepsilon$-greedyアルゴリズムの設計に利用できることを示す。
我々はアルゴリズムと定理の適用可能性について、関連する最適化オラクルを効率的に実装できる大規模な非パラメトリックポリシークラスを例に示す。
関連論文リスト
- A Generalization Result for Convergence in Learning-to-Optimize [4.112909937203119]
最適化における従来の収束保証は幾何学的引数に基づいており、アルゴリズムには適用できない。
私たちは、私たちの知識のベストを証明する最初の人であり、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。私たちは、私たちの知識のベストを証明する最初の人です。
論文 参考訳(メタデータ) (2024-10-10T08:17:04Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。
これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - Bayesian Design Principles for Frequentist Sequential Learning [11.421942894219901]
逐次学習問題に対する頻繁な後悔を最適化する理論を開発する。
各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案する。
本稿では,マルチアームバンディットの「ベスト・オブ・オール・ワールド」な経験的性能を実現するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-01T22:17:37Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - PAC-Bayesian Learning of Optimization Algorithms [6.624726878647541]
PAC-Bayes理論を学習最適化の設定に適用する。
証明可能な一般化保証(PAC-bounds)と高収束確率と高収束速度との間の明示的なトレードオフを持つ最適化アルゴリズムを学習する。
この結果は指数族に基づく一般の非有界損失関数に対してPAC-Bayes境界に依存する。
論文 参考訳(メタデータ) (2022-10-20T09:16:36Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。