論文の概要: Distance-Sensitive Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.11027v1
- Date: Mon, 23 May 2022 04:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:00:08.543761
- Title: Distance-Sensitive Offline Reinforcement Learning
- Title(参考訳): 距離感性オフライン強化学習
- Authors: Jianxiong Li, Xianyuan Zhan, Haoran Xu, Xiangyu Zhu, Jingjing Liu,
Ya-Qin Zhang
- Abstract要約: オフライン強化学習(RL)において、政策学習に対する有害な問題のひとつは、分布外領域における深部Q関数の誤り蓄積である。
オフラインRLにおける深部関数近似器とデータセット幾何を結合する新しい手法DOGEを提案する。
提案アルゴリズムは,D4RLベンチマークの最先端手法と比較して,より一般化されている。
- 参考スコア(独自算出の注目度): 19.787000483994873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL), one detrimental issue to policy
learning is the error accumulation of deep Q function in out-of-distribution
(OOD) areas. Unfortunately, existing offline RL methods are often
over-conservative, inevitably hurting generalization performance outside data
distribution. In our study, one interesting observation is that deep Q
functions approximate well inside the convex hull of training data. Inspired by
this, we propose a new method, DOGE (Distance-sensitive Offline RL with better
GEneralization). DOGE marries dataset geometry with deep function approximators
in offline RL, and enables exploitation in generalizable OOD areas rather than
strictly constraining policy within data distribution. Specifically, DOGE
trains a state-conditioned distance function that can be readily plugged into
standard actor-critic methods as a policy constraint. Simple yet elegant, our
algorithm enjoys better generalization compared to state-of-the-art methods on
D4RL benchmarks. Theoretical analysis demonstrates the superiority of our
approach to existing methods that are solely based on data distribution or
support constraints.
- Abstract(参考訳): オフライン強化学習 (rl) では、政策学習における1つの有害な問題は、out-of-distribution (ood)領域における深いq関数のエラー蓄積である。
残念ながら、既存のオフラインRLメソッドはしばしば過保守であり、データ分散の外での一般化性能を損なう。
本研究では,深部Q関数が訓練データの凸内をよく近似していることが興味深い。
そこで本研究では,新しい手法であるdoge ( distance-sensitive offline rl with better generalization)を提案する。
DOGEは、データセットの幾何学をオフラインのRLで深度関数近似器と結合し、データ分散内のポリシーを厳格に制約するのではなく、一般化可能なOOD領域で利用できるようにする。
具体的には、DOGEは、ポリシー制約として標準アクタークリティカルメソッドに簡単にプラグインできる状態条件付き距離関数を訓練する。
単純だがエレガントなアルゴリズムでは,D4RLベンチマークの最先端手法と比較して,より一般化されている。
理論的解析は,データ分散やサポート制約のみに基づく既存手法へのアプローチの優位性を実証する。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline
Reinforcement Learning [1.9336815376402723]
オフラインのRLメソッドは、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学ぶ。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
本稿では,近年の拡散政策における状態再構成特徴学習を取り入れたSRDP(State Reconstruction for Diffusion Policies)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。