論文の概要: Percentile Criterion Optimization in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.05055v1
- Date: Sun, 7 Apr 2024 19:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:02:57.644028
- Title: Percentile Criterion Optimization in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるパーセンタイル基準最適化
- Authors: Elita A. Lobo, Cyrus Cousins, Yair Zick, Marek Petrik,
- Abstract要約: 本稿では,不明瞭さを明示的に定義することなくパーセンタイル基準を最適化する,バリュー・アット・リスクに基づく動的プログラミングアルゴリズムを提案する。
我々の理論的および実証的な結果は、我々の結果は暗黙的に堅牢な保守的な政策を学習していることを示している。
- 参考スコア(独自算出の注目度): 22.42041973113997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, robust policies for high-stakes decision-making problems with limited data are usually computed by optimizing the \emph{percentile criterion}. The percentile criterion is approximately solved by constructing an \emph{ambiguity set} that contains the true model with high probability and optimizing the policy for the worst model in the set. Since the percentile criterion is non-convex, constructing ambiguity sets is often challenging. Existing work uses \emph{Bayesian credible regions} as ambiguity sets, but they are often unnecessarily large and result in learning overly conservative policies. To overcome these shortcomings, we propose a novel Value-at-Risk based dynamic programming algorithm to optimize the percentile criterion without explicitly constructing any ambiguity sets. Our theoretical and empirical results show that our algorithm implicitly constructs much smaller ambiguity sets and learns less conservative robust policies.
- Abstract(参考訳): 強化学習において、限られたデータを持つ高い意思決定問題に対する堅牢なポリシーは、通常、 \emph{percentile criterion} を最適化することによって計算される。
パーセンタイルの基準は、確率の高い真のモデルを含む \emph{ambiguity set} を構築し、集合の最悪のモデルに対するポリシーを最適化することによって、概ね解決される。
パーセンタイルの基準は非凸であるため、曖昧性集合を構成することはしばしば困難である。
既存の仕事は曖昧性集合として 'emph{Bayesian credible region} を用いるが、それらはしばしば必要以上に大きくなり、過度に保守的な政策を学ぶ。
これらの欠点を克服するために,不明瞭な集合を明示的に構築することなくパーセンタイル基準を最適化する,バリュー・アット・リスクに基づく動的プログラミングアルゴリズムを提案する。
我々の理論的および実証的な結果は、我々のアルゴリズムが暗黙的により小さな曖昧性集合を構築し、より保守的なロバストなポリシーを学ぶことを示している。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - A Convex Framework for Confounding Robust Inference [21.918894096307294]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-09-21T19:45:37Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Soft-Robust Algorithms for Batch Reinforcement Learning [36.78967245470449]
強化学習では、限られたデータによる堅牢な意思決定問題は、通常パーセンタイル基準によって計算される。
平均性能を最適化し無視することが難しいため、パーセンタイル基準は理論的ではないことを示す。
パーセンタイル基準を最適化するアルゴリズムを2つ提案し,解析する。
論文 参考訳(メタデータ) (2020-11-30T01:36:16Z) - Data-Driven Robust Optimization using Unsupervised Deep Learning [0.0]
逆問題に対して凸混合整数プログラムとして定式化することにより、トレーニングされたニューラルネットワークをロバストな最適化モデルに統合できることを示す。
このアプローチは、カーネルベースのサポートベクターセットを用いて、同様のアプローチより優れていることが判明した。
論文 参考訳(メタデータ) (2020-11-19T11:06:54Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。