論文の概要: Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation
- arxiv url: http://arxiv.org/abs/2212.13861v1
- Date: Wed, 28 Dec 2022 15:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:00:51.243122
- Title: Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation
- Title(参考訳): 一般関数近似を用いたオフラインRLの線形プログラミングフレームワークの再検討
- Authors: Asuman Ozdaglar, Sarath Pattathil, Jiawei Zhang, Kaiqing Zhang
- Abstract要約: オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
- 参考スコア(独自算出の注目度): 24.577243536475233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) concerns pursuing an optimal policy for
sequential decision-making from a pre-collected dataset, without further
interaction with the environment. Recent theoretical progress has focused on
developing sample-efficient offline RL algorithms with various relaxed
assumptions on data coverage and function approximators, especially to handle
the case with excessively large state-action spaces. Among them, the framework
based on the linear-programming (LP) reformulation of Markov decision processes
has shown promise: it enables sample-efficient offline RL with function
approximation, under only partial data coverage and realizability assumptions
on the function classes, with favorable computational tractability. In this
work, we revisit the LP framework for offline RL, and advance the existing
results in several aspects, relaxing certain assumptions and achieving optimal
statistical rates in terms of sample size. Our key enabler is to introduce
proper constraints in the reformulation, instead of using any regularization as
in the literature, sometimes also with careful choices of the function classes
and initial state distributions. We hope our insights further advocate the
study of the LP framework, as well as the induced primal-dual minimax
optimization, in offline RL.
- Abstract(参考訳): オフライン強化学習(rl)は、事前収集されたデータセットから逐次的な意思決定のための最適なポリシーを追求する。
最近の理論的進歩は、データカバレッジと関数近似に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点を当てている。
その中でも,マルコフ決定過程の線形プログラミング (LP) の再構成に基づくフレームワークは,関数近似を用いたサンプル効率のよいオフラインRLを実現することを約束している。
本研究では,オフラインrlのためのlpフレームワークを再検討し,既存の結果をいくつかの側面で前進させ,一定の仮定を緩和し,サンプルサイズの観点から最適統計率を達成する。
我々のキーとなるイネーブルは、文学のように正規化を使わず、時には関数クラスや初期状態分布を慎重に選択する代わりに、改革に適切な制約を導入することです。
我々は、LPフレームワークの研究や、オフラインRLにおけるプリマル・デュアル・ミニマックス最適化のさらなる推進を期待する。
関連論文リスト
- Span-Agnostic Optimal Sample Complexity and Oracle Inequalities for Average-Reward RL [6.996002801232415]
生成モデルを用いてマルコフ決定過程(MDP)において,$varepsilon$-optimal Policyを求める際のサンプル複雑性について検討した。
我々は,知識を必要とせず,最適なスパンベース複雑性に適合するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-16T19:10:55Z) - Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability [49.96531901205305]
我々は,オフラインの文脈的包帯に対する単一政治中心性の下でのサンプル複雑性を$tildeO(epsilon-1)$とするemphfirstアルゴリズムを提案する。
我々の証明は、KL正則化の強い凸性と、真の報酬と悲観的推定子のギャップの条件的非負性を利用する。
我々は,このアルゴリズムを文脈的デュエル帯域に拡張し,ほぼ最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs [18.449996575976993]
無限水平割引設定における線形 MDP を用いたオフライン RL の原始双対アルゴリズムを提案する。
本アルゴリズムは, 部分的データカバレッジを仮定した$O(epsilon-2)$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。
我々はアルゴリズムをオフラインの制約付きRL設定で動作させ、追加の報酬信号に制約を課すように拡張する。
論文 参考訳(メタデータ) (2024-02-07T00:33:11Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Near-Optimal Sample Complexity Bounds for Constrained MDPs [25.509556551558834]
減算CMDPにおける準最適政策を学習するために,サンプルの複雑さを極小値と下位値で表す。
CMDPの学習は,少ない制約違反を許す場合と同等に容易であるが,制約違反を要求しない場合には本質的に困難であることを示す。
論文 参考訳(メタデータ) (2022-06-13T15:58:14Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。