論文の概要: STEEL: Singularity-aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.13152v3
- Date: Fri, 26 May 2023 02:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 21:02:29.038455
- Title: STEEL: Singularity-aware Reinforcement Learning
- Title(参考訳): STEEL:特異性を考慮した強化学習
- Authors: Xiaohong Chen, Zhengling Qi, Runzhe Wan
- Abstract要約: バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。
悲観主義の考え方を利用して、いくつかの穏やかな条件下で、提案したアルゴリズムに対する有限サンプル後悔保証を導出する。
- 参考スコア(独自算出の注目度): 6.125166470658614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch reinforcement learning (RL) aims at leveraging pre-collected data to
find an optimal policy that maximizes the expected total rewards in a dynamic
environment. Nearly all existing algorithms rely on the absolutely continuous
assumption on the distribution induced by target policies with respect to the
data distribution, so that the batch data can be used to calibrate target
policies via the change of measure. However, the absolute continuity assumption
could be violated in practice (e.g., no-overlap support), especially when the
state-action space is large or continuous. In this paper, we propose a new
batch RL algorithm without requiring absolute continuity in the setting of an
infinite-horizon Markov decision process with continuous states and actions. We
call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our
algorithm is motivated by a new error analysis on off-policy evaluation, where
we use maximum mean discrepancy, together with distributionally robust
optimization, to characterize the error of off-policy evaluation caused by the
possible singularity and to enable model extrapolation. By leveraging the idea
of pessimism and under some mild conditions, we derive a finite-sample regret
guarantee for our proposed algorithm without imposing absolute continuity.
Compared with existing algorithms, by requiring only minimal data-coverage
assumption, STEEL significantly improves the applicability and robustness of
batch RL. Extensive simulation studies and one real experiment on personalized
pricing demonstrate the superior performance of our method in dealing with
possible singularity in batch RL.
- Abstract(参考訳): バッチ強化学習(rl)は、事前に収集したデータを活用して、動的環境で期待される総報酬を最大化する最適なポリシーを見つけることを目的としている。
既存のアルゴリズムのほとんどすべてが、データ分散に関してターゲットポリシーによって引き起こされる分布の絶対的な連続的な仮定に依存しているため、バッチデータは測定値の変更を通じてターゲットポリシーの校正に使用できる。
しかし、絶対連続性仮定は実際には違反する可能性があり(例えば、非オーバーラップサポート)、特に状態作用空間が大きく連続している場合である。
本稿では,連続状態と動作を伴う無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。
我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。
このアルゴリズムは,最大平均不一致と分布的ロバストな最適化を併用し,特異性に起因するオフポリス評価の誤りを特徴付け,モデルの補間を可能にするオフポリシー評価の新しい誤り解析に動機づけられている。
悲観主義の考え方を利用して、いくつかの穏やかな条件下では、絶対連続性を課さずに提案したアルゴリズムに対する有限サンプル後悔保証を導出する。
既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を大幅に改善する。
拡張シミュレーション研究とパーソナライズ価格に関する実実験は,バッチrlにおける特異性に対処する上で,提案手法の優れた性能を示すものである。
関連論文リスト
- Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。