論文の概要: Offline Reinforcement Learning: Role of State Aggregation and Trajectory Data
- arxiv url: http://arxiv.org/abs/2403.17091v1
- Date: Mon, 25 Mar 2024 18:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:55:36.507612
- Title: Offline Reinforcement Learning: Role of State Aggregation and Trajectory Data
- Title(参考訳): オフライン強化学習:状態集約と軌道データの役割
- Authors: Zeyu Jia, Alexander Rakhlin, Ayush Sekhari, Chen-Yu Wei,
- Abstract要約: 我々は,ベルマンを使わずに,値関数を実現可能なオフライン強化学習の問題を再考する。
Xie と Jiang (2021) と Foster et al. (2022) による以前の研究は、軌道に基づくオフラインデータとともに集中係数が有界標本複雑性を統一するかどうかという疑問を解き放った。
- 参考スコア(独自算出の注目度): 64.93285984013833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the problem of offline reinforcement learning with value function realizability but without Bellman completeness. Previous work by Xie and Jiang (2021) and Foster et al. (2022) left open the question whether a bounded concentrability coefficient along with trajectory-based offline data admits a polynomial sample complexity. In this work, we provide a negative answer to this question for the task of offline policy evaluation. In addition to addressing this question, we provide a rather complete picture for offline policy evaluation with only value function realizability. Our primary findings are threefold: 1) The sample complexity of offline policy evaluation is governed by the concentrability coefficient in an aggregated Markov Transition Model jointly determined by the function class and the offline data distribution, rather than that in the original MDP. This unifies and generalizes the ideas of Xie and Jiang (2021) and Foster et al. (2022), 2) The concentrability coefficient in the aggregated Markov Transition Model may grow exponentially with the horizon length, even when the concentrability coefficient in the original MDP is small and the offline data is admissible (i.e., the data distribution equals the occupancy measure of some policy), 3) Under value function realizability, there is a generic reduction that can convert any hard instance with admissible data to a hard instance with trajectory data, implying that trajectory data offers no extra benefits over admissible data. These three pieces jointly resolve the open problem, though each of them could be of independent interest.
- Abstract(参考訳): 我々は,ベルマン完全性を持たない値関数実現可能性を持つオフライン強化学習の問題を再考する。
Xie と Jiang (2021) と Foster et al (2022) による以前の研究は、軌道に基づくオフラインデータとともに有界な濃度係数が多項式サンプルの複雑さを許容するかどうかという問題を解き放った。
本研究では,オフライン政策評価の課題に対して,この問題に対する否定的な回答を提供する。
この問題に対処することに加えて、我々は、値関数実現可能性のみを備えたオフラインポリシー評価のための、かなり完全な図を提供する。
1) オフライン政策評価のサンプルの複雑さは, 関数クラスとオフラインデータ分布によって協調的に決定される集約マルコフ遷移モデルにおいて, 元のMDPではなく, 集中係数によって制御される。
これは、Xie and Jiang (2021) と Foster et al (2022) の考えを統一し、一般化する。
2) 集約マルコフ遷移モデルにおける集中係数は、元のMDPにおける集中係数が小さく、オフラインデータが許容できる(すなわち、データ分布が何らかの政策の占有率に等しい)場合でも、地平線長と指数的に増大することがある。
3) 値関数の実現可能性の下では、許容可能なデータを持つハードインスタンスをトラジェクティブデータを持つハードインスタンスに変換し、トラジェクトリデータが許容可能なデータよりも余分な利益をもたらすことを示唆するジェネリックリダクションが存在する。
これら3つのピースはオープンな問題を共同で解決するが、それぞれが独立した関心を持つ可能性がある。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Offline Reinforcement Learning with Realizability and Single-policy
Concentrability [40.15976281104956]
オフライン強化学習のサンプル効率保証は、しばしば関数クラスとデータカバレッジの両方に強い仮定に依存する。
本稿では,2つの変数をオフラインデータに対してオフライン関数を用いてモデル化する,原始双対MDPに基づく単純なアルゴリズムを解析する。
論文 参考訳(メタデータ) (2022-02-09T18:51:24Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。