論文の概要: Offline Reinforcement Learning with Additional Covering Distributions
- arxiv url: http://arxiv.org/abs/2305.12679v1
- Date: Mon, 22 May 2023 03:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:48:55.347453
- Title: Offline Reinforcement Learning with Additional Covering Distributions
- Title(参考訳): 追加被覆分布を用いたオフライン強化学習
- Authors: Chenjie Mao
- Abstract要約: 我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study learning optimal policies from a logged dataset, i.e., offline RL,
with function approximation. Despite the efforts devoted, existing algorithms
with theoretic finite-sample guarantees typically assume exploratory data
coverage or strong realizable function classes, which is hard to be satisfied
in reality. While there are recent works that successfully tackle these strong
assumptions, they either require the gap assumptions that only could be
satisfied by part of MDPs or use the behavior regularization that makes the
optimality of learned policy even intractable. To solve this challenge, we
provide finite-sample guarantees for a simple algorithm based on marginalized
importance sampling (MIS), showing that sample-efficient offline RL for general
MDPs is possible with only a partial coverage dataset and weak realizable
function classes given additional side information of a covering distribution.
Furthermore, we demonstrate that the covering distribution trades off prior
knowledge of the optimal trajectories against the coverage requirement of the
dataset, revealing the effect of this inductive bias in the learning processes.
- Abstract(参考訳): 我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
努力にもかかわらず、理論的な有限サンプル保証を持つ既存のアルゴリズムは、通常、探索的データカバレッジや強力な実現可能な関数クラスを想定している。
これらの強い仮定にうまく対処する最近の研究は存在するが、MDPの一部でのみ満足できるギャップ仮定を必要とするか、学習された政策の最適性をさらに難易度にするための行動規則化を利用するかのいずれかである。
この課題を解決するために,一般MDPに対するサンプル効率の良いオフラインRLは,部分的カバレッジデータセットと,被覆分布の付加的な側情報を与える弱い実現可能な関数クラスのみを用いて実現可能であることを示す,余分な重要サンプリング(MIS)に基づく単純なアルゴリズムに対する有限サンプル保証を提供する。
さらに,学習過程におけるこの帰納的バイアスの影響を明らかにするため,最適軌跡の事前知識とデータセットのカバレッジ要件とのトレードオフを明らかにした。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data [28.445166861907495]
我々は,TMISオフライン政策評価(OPE)推定器の理論を開発する。
我々は、その推定誤差に基づいて高確率、インスタンス依存境界を導出する。
また,適応環境での極小最適オフライン学習を復元する。
論文 参考訳(メタデータ) (2023-06-24T21:48:28Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Offline Reinforcement Learning Under Value and Density-Ratio
Realizability: the Power of Gaps [15.277483173402128]
我々は,限界値サンプリングによって生成されたバージョン空間に基づく悲観的アルゴリズムの保証を行う。
我々の研究は、オフライン強化学習におけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。
論文 参考訳(メタデータ) (2022-03-25T23:33:38Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。