論文の概要: Exploiting Generalization in Offline Reinforcement Learning via Unseen
State Augmentations
- arxiv url: http://arxiv.org/abs/2308.03882v1
- Date: Mon, 7 Aug 2023 19:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 15:05:29.986412
- Title: Exploiting Generalization in Offline Reinforcement Learning via Unseen
State Augmentations
- Title(参考訳): 非知覚状態拡張によるオフライン強化学習における一般化の活用
- Authors: Nirbhay Modhe, Qiaozi Gao, Ashwin Kalyan, Dhruv Batra, Govind Thattai,
Gaurav Sukhatme
- Abstract要約: オフライン強化学習(RL)手法は、保守的価値推定による探索と搾取のバランスを崩す。
モデルフリーメソッドは、すべての未確認アクションで値をペナライズするが、モデルベースメソッドはモデルロールアウトを通じて、さらに未確認の状態を活用できる。
本稿では,学習モデルと評価値が一般化した未確認状態の活用を可能にする,新たな未確認状態拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 28.99802932400758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) methods strike a balance between
exploration and exploitation by conservative value estimation -- penalizing
values of unseen states and actions. Model-free methods penalize values at all
unseen actions, while model-based methods are able to further exploit unseen
states via model rollouts. However, such methods are handicapped in their
ability to find unseen states far away from the available offline data due to
two factors -- (a) very short rollout horizons in models due to cascading model
errors, and (b) model rollouts originating solely from states observed in
offline data. We relax the second assumption and present a novel unseen state
augmentation strategy to allow exploitation of unseen states where the learned
model and value estimates generalize. Our strategy finds unseen states by
value-informed perturbations of seen states followed by filtering out states
with epistemic uncertainty estimates too high (high error) or too low (too
similar to seen data). We observe improved performance in several offline RL
tasks and find that our augmentation strategy consistently leads to overall
lower average dataset Q-value estimates i.e. more conservative Q-value
estimates than a baseline.
- Abstract(参考訳): オフライン強化学習(RL)手法は、保守的な価値推定による探索と搾取のバランスを崩し、目に見えない状態や行動の価値を罰する。
モデルベースメソッドは、モデルロールアウトによって、未検出の状態をさらに活用することができる。
しかし、これらの手法は2つの要因により、利用可能なオフラインデータから遠く離れた見えない状態を見つける能力に障害がある。
(a)カスケードモデルエラーによるモデルにおける非常に短いロールアウト地平線
(b)オフラインデータで観測された状態のみに由来するモデルロールアウト。
第2の仮定を緩和し,学習モデルと価値推定が一般化する未認識状態の活用を可能にする,新たな未認識状態拡張戦略を提案する。
提案手法では,認識的不確実性推定値が高すぎる(高い誤差)あるいは低すぎる(見掛けたデータに類似しすぎる)状態を用いて,見掛けられた状態の値に変形した摂動によって,見当たらない状態を見出す。
いくつかのオフラインrlタスクのパフォーマンス改善を観察し、我々の拡張戦略が、ベースラインよりも保守的なq値推定というように、総合的に低い平均データセットq値推定につながることを発見しました。
関連論文リスト
- Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization [41.774837419584735]
オフライン強化学習(英語版) (RL) は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、特に魅力的である。
論文 参考訳(メタデータ) (2022-10-07T20:13:50Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Operator inference of non-Markovian terms for learning reduced models
from partially observed state trajectories [0.0]
本研究では,高次元力学系の軌道から縮小モデルを学ぶための非インタラクティブモデル還元手法を提案する。
提案手法は,非マルコフ還元モデルを構築することにより,部分観測状態による情報損失を補償する。
数値実験の結果,提案手法は非マルコフ還元モデルにつながり,訓練体制をはるかに超えた予測が可能となった。
論文 参考訳(メタデータ) (2021-03-01T23:55:52Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。