論文の概要: Towards Optimal Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.12283v1
- Date: Sat, 15 Mar 2025 22:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:41.748350
- Title: Towards Optimal Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習の最適化に向けて
- Authors: Mengmeng Li, Daniel Kuhn, Tobias Sutter,
- Abstract要約: 本研究では,長期平均報酬目標を用いたオフライン強化学習問題について検討する。
任意の固定的な行動ポリシーによって生成される状態-作用対はマルコフ連鎖に従う。
我々は、この大きな偏差原理の速度関数を用いて、未知の状態-作用-次の状態分布に対する不確実性集合を構築する。
- 参考スコア(独自算出の注目度): 9.13232872223434
- License:
- Abstract: We study offline reinforcement learning problems with a long-run average reward objective. The state-action pairs generated by any fixed behavioral policy thus follow a Markov chain, and the {\em empirical} state-action-next-state distribution satisfies a large deviations principle. We use the rate function of this large deviations principle to construct an uncertainty set for the unknown {\em true} state-action-next-state distribution. We also construct a distribution shift transformation that maps any distribution in this uncertainty set to a state-action-next-state distribution of the Markov chain generated by a fixed evaluation policy, which may differ from the unknown behavioral policy. We prove that the worst-case average reward of the evaluation policy with respect to all distributions in the shifted uncertainty set provides, in a rigorous statistical sense, the least conservative estimator for the average reward under the unknown true distribution. This guarantee is available even if one has only access to one single trajectory of serially correlated state-action pairs. The emerging robust optimization problem can be viewed as a robust Markov decision process with a non-rectangular uncertainty set. We adapt an efficient policy gradient algorithm to solve this problem. Numerical experiments show that our methods compare favorably against state-of-the-art methods.
- Abstract(参考訳): 本研究では,長期平均報酬目標を用いたオフライン強化学習問題について検討する。
固定的な行動ポリシーによって生成される状態-作用対はマルコフ連鎖に従い、状態-作用-次の状態分布は大きな偏差原理を満たす。
我々は、この大きな偏差原理の速度関数を用いて、未知の状態-作用-次の状態分布に対する不確実性集合を構築する。
また、この不確実性集合内の任意の分布を、未知の行動ポリシーとは異なる固定評価ポリシによって生成されるマルコフ連鎖の状態-作用-負状態分布にマッピングする分布シフト変換を構築した。
シフト不確実性集合における全ての分布に対する評価政策の最悪の平均報酬は、厳密な統計的意味において、未知の真の分布における平均報酬に対する最も保守的な推定量をもたらすことを証明している。
この保証は、連続的に相関した状態-作用対の1つの軌道しかアクセスできない場合でも利用できる。
新たなロバストな最適化問題は、非矩形不確実性集合を持つロバストなマルコフ決定過程と見なすことができる。
この問題を解決するために、効率的なポリシー勾配アルゴリズムを適用する。
数値実験により,本手法は最先端手法と良好に比較できることが示された。
関連論文リスト
- Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Uncertainty Quantification via Stable Distribution Propagation [60.065272548502]
本稿では,ニューラルネットワークによる安定確率分布の伝播手法を提案する。
提案手法は局所線形化に基づいており,ReLU非線型性に対する全変動距離の近似値として最適であることを示す。
論文 参考訳(メタデータ) (2024-02-13T09:40:19Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Correcting discount-factor mismatch in on-policy policy gradient methods [2.9005223064604078]
本稿では,ディスカウントされた定常分布を考慮した新しい分布補正を提案する。
我々のアルゴリズムは、いくつかのOpenAIジムとDeepMindスイートベンチマークにおいて、元のパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-06-23T04:10:58Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。