論文の概要: Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage
- arxiv url: http://arxiv.org/abs/2302.02392v2
- Date: Mon, 13 Nov 2023 14:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:29:43.288816
- Title: Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage
- Title(参考訳): 実現可能性と部分被覆下におけるオフラインミニマックスソフトQ学習
- Authors: Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun
- Abstract要約: オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
- 参考スコア(独自算出の注目度): 100.8180383245813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In offline reinforcement learning (RL) we have no opportunity to explore so
we must make assumptions that the data is sufficient to guide picking a good
policy, taking the form of assuming some coverage, realizability, Bellman
completeness, and/or hard margin (gap). In this work we propose value-based
algorithms for offline RL with PAC guarantees under just partial coverage,
specifically, coverage of just a single comparator policy, and realizability of
soft (entropy-regularized) Q-function of the single policy and a related
function defined as a saddle point of certain minimax optimization problem.
This offers refined and generally more lax conditions for offline RL. We
further show an analogous result for vanilla Q-functions under a soft margin
condition. To attain these guarantees, we leverage novel minimax learning
algorithms to accurately estimate soft or vanilla Q-functions with
$L^2$-convergence guarantees. Our algorithms' loss functions arise from casting
the estimation problems as nonlinear convex optimization problems and
Lagrangifying.
- Abstract(参考訳): オフライン強化学習(RL)では、適切なポリシーを選択するのに十分なデータが十分であることを前提に、いくつかのカバレッジ、実現可能性、ベルマン完全性、および/またはハードマージン(ギャップ)を仮定して、調査する機会がない。
本研究では, 単一コンパレータポリシのみのカバレッジと, 単一ポリシのソフト(エントロピー規則化)Q-関数の実現可能性と, 特定のミニマックス最適化問題のサドル点として定義された関連関数について, PAC保証付きオフラインRLの値ベースアルゴリズムを提案する。
これにより、オフラインrlのより洗練されたlax条件が提供される。
さらに,ソフトマージン条件下でのバニラQ関数の類似結果を示す。
これらの保証を達成するために,新しいミニマックス学習アルゴリズムを用いて,l^2$-convergence 保証によりソフトq関数やバニラq関数を正確に推定する。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning
with Linear Function Approximation [16.871660060209674]
本研究では, 線形関数近似を用いた展開効率向上強化学習(RL)の課題を, 遠近自由探索条件下で検討する。
我々は,最大$widetildeO(fracd2H5epsilon2)$ trajectoriesを$H$デプロイメント内で収集し,$epsilon$-Optimal Policyを任意の(おそらくはデータに依存した)報酬関数の選択に対して識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T03:48:26Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。