論文の概要: Soft-Robust Algorithms for Batch Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.14495v2
- Date: Fri, 26 Feb 2021 17:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 15:04:29.086172
- Title: Soft-Robust Algorithms for Batch Reinforcement Learning
- Title(参考訳): バッチ強化学習のためのソフトロバストアルゴリズム
- Authors: Elita A. Lobo, Mohammad Ghavamzadeh, Marek Petrik
- Abstract要約: 強化学習では、限られたデータによる堅牢な意思決定問題は、通常パーセンタイル基準によって計算される。
平均性能を最適化し無視することが難しいため、パーセンタイル基準は理論的ではないことを示す。
パーセンタイル基準を最適化するアルゴリズムを2つ提案し,解析する。
- 参考スコア(独自算出の注目度): 36.78967245470449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, robust policies for high-stakes decision-making
problems with limited data are usually computed by optimizing the percentile
criterion, which minimizes the probability of a catastrophic failure.
Unfortunately, such policies are typically overly conservative as the
percentile criterion is non-convex, difficult to optimize, and ignores the mean
performance. To overcome these shortcomings, we study the soft-robust
criterion, which uses risk measures to balance the mean and percentile
criterion better. In this paper, we establish the soft-robust criterion's
fundamental properties, show that it is NP-hard to optimize, and propose and
analyze two algorithms to approximately optimize it. Our theoretical analyses
and empirical evaluations demonstrate that our algorithms compute much less
conservative solutions than the existing approximate methods for optimizing the
percentile-criterion.
- Abstract(参考訳): 強化学習では、限られたデータによる高リスク意思決定問題に対する強固な方針は、通常はパーセンタイルの基準を最適化することで計算される。
残念なことに、このようなポリシーは通常、パーセンタイル基準が非凸であり、最適化が難しく、平均性能を無視しているため、過度に保守的である。
これらの欠点を克服するために、リスク対策を用いて平均とパーセンタイルの基準のバランスを改善するソフト・ロバスト基準について検討する。
本稿では,ソフトロバスト基準の基本特性を定式化し,最適化がnp困難であることを証明し,その最適化のために2つのアルゴリズムを提案し,解析する。
理論解析と経験的評価により,既存のパーセンタイル基準の最適化法に比べて,アルゴリズムは保存的解の計算がはるかに少ないことが示された。
関連論文リスト
- Percentile Criterion Optimization in Offline Reinforcement Learning [22.42041973113997]
本稿では,不明瞭さを明示的に定義することなくパーセンタイル基準を最適化する,バリュー・アット・リスクに基づく動的プログラミングアルゴリズムを提案する。
我々の理論的および実証的な結果は、我々の結果は暗黙的に堅牢な保守的な政策を学習していることを示している。
論文 参考訳(メタデータ) (2024-04-07T19:29:09Z) - Parameter-Free Algorithms for Performative Regret Minimization under
Decision-Dependent Distributions [15.396561118589577]
パフォーマンスリスク最小化は、決定依存分布の下での最適化の定式化である。
我々のアルゴリズムは、既存のリプシッツ定数分布パラメータに基づく手法を大幅に改善する。
提案手法は,既存手法と他のブラックボックス楽観的最適化手法に比較して,アルゴリズムの数値的優位性を示す実験結果を提供する。
論文 参考訳(メタデータ) (2024-02-23T08:36:28Z) - Online Resource Allocation with Convex-set Machine-Learned Advice [27.662388663465006]
本稿では、一貫した比とロバストな比のバランスをとる最適オンラインリソース割り当てアルゴリズムのパラメータ化クラスを導入する。
具体的には、C-リート最適設定において、ロバスト比が少なくともCであることを保証するとともに、一貫した比を最大化する。
論文 参考訳(メタデータ) (2023-06-21T14:09:33Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。