論文の概要: Selective Uncertainty Propagation in Offline RL
- arxiv url: http://arxiv.org/abs/2302.00284v1
- Date: Wed, 1 Feb 2023 07:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:27:11.805444
- Title: Selective Uncertainty Propagation in Offline RL
- Title(参考訳): オフラインRLにおける選択的不確かさ伝播
- Authors: Sanath Kumar Krishnamurthy, Tanmay Gangwani, Sumeet Katariya,
Branislav Kveton, Anshuka Rangi
- Abstract要約: 有限水平オフライン強化学習(RL)問題について検討する。
オフラインのRLインスタンスは、次の状態分布に対するアクションの影響の大きさを推定することで測定できることを示し、この洞察を形式化する。
- 参考スコア(独自算出の注目度): 25.137819100906274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the finite-horizon offline reinforcement learning (RL) problem.
Since actions at any state can affect next-state distributions, the related
distributional shift challenges can make this problem far more statistically
complex than offline policy learning for a finite sequence of stochastic
contextual bandit environments. We formalize this insight by showing that the
statistical hardness of offline RL instances can be measured by estimating the
size of actions' impact on next-state distributions. Furthermore, this
estimated impact allows us to propagate just enough value function uncertainty
from future steps to avoid model exploitation, enabling us to develop
algorithms that improve upon traditional pessimistic approaches for offline RL
on statistically simple instances. Our approach is supported by theory and
simulations.
- Abstract(参考訳): 有限水平オフライン強化学習(RL)問題について検討する。
任意の状態における行動は次の状態分布に影響を与える可能性があるため、関連する分布シフト問題により、この問題は確率的文脈帯域環境の有限列に対するオフラインポリシー学習よりもはるかに統計的に複雑になる。
オフラインRLインスタンスの統計的硬度は、次の状態分布に対するアクションの影響の大きさを推定することで測定できることを示し、この知見を形式化する。
さらに、この推定された影響により、モデル悪用を避けるために将来のステップから十分な値関数の不確実性を伝播することができ、統計的に単純なインスタンス上でのオフラインRLに対する従来の悲観的アプローチを改善するアルゴリズムを開発することができる。
我々のアプローチは理論とシミュレーションによって支えられている。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Budgeting Counterfactual for Offline RL [25.918011878015136]
本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。
そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
論文 参考訳(メタデータ) (2023-07-12T17:47:35Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。