論文の概要: Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints
- arxiv url: http://arxiv.org/abs/2211.01052v1
- Date: Wed, 2 Nov 2022 11:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:36:52.146910
- Title: Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints
- Title(参考訳): リアルなデータセットを備えたオフラインRL:ヘテロスケダスティック性とサポート制約
- Authors: Anikait Singh, Aviral Kumar, Quan Vuong, Yevgen Chebotar, Sergey
Levine
- Abstract要約: 非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
- 参考スコア(独自算出の注目度): 82.43359506154117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) learns policies entirely from static
datasets, thereby avoiding the challenges associated with online data
collection. Practical applications of offline RL will inevitably require
learning from datasets where the variability of demonstrated behaviors changes
non-uniformly across the state space. For example, at a red light, nearly all
human drivers behave similarly by stopping, but when merging onto a highway,
some drivers merge quickly, efficiently, and safely, while many hesitate or
merge dangerously. Both theoretically and empirically, we show that typical
offline RL methods, which are based on distribution constraints fail to learn
from data with such non-uniform variability, due to the requirement to stay
close to the behavior policy to the same extent across the state space.
Ideally, the learned policy should be free to choose per state how closely to
follow the behavior policy to maximize long-term return, as long as the learned
policy stays within the support of the behavior policy. To instantiate this
principle, we reweight the data distribution in conservative Q-learning (CQL)
to obtain an approximate support constraint formulation. The reweighted
distribution is a mixture of the current policy and an additional policy
trained to mine poor actions that are likely under the behavior policy. Our
method, CQL (ReDS), is simple, theoretically motivated, and improves
performance across a wide range of offline RL problems in Atari games,
navigation, and pixel-based manipulation.
- Abstract(参考訳): オフライン強化学習(RL)は、静的データセットからポリシを完全に学習することで、オンラインデータ収集に関わる問題を回避する。
オフラインRLの実践的な応用は、必然的に、状態空間全体にわたって、実証された振る舞いのばらつきが不均一に変化するデータセットからの学習を必要とする。
例えば、赤信号では、ほぼすべての人間のドライバーが停止して同じように振る舞うが、高速道路にマージする際には、一部のドライバーは素早く、効率的に、安全にマージする。
理論上および実証的に、分散制約に基づく典型的なオフラインrl法は、状態空間をまたいで行動ポリシーに近づかないように要求されるため、そのような一様でない変動性を持つデータから学習できないことが示されている。
理想的には、学習された政策が行動政策の支持に留まる限り、行動政策が長期的利益を最大化するために、行動政策にどの程度近づいたかを州ごとに自由に選択できるべきである。
この原則をインスタンス化するために,保存的q-learning (cql) におけるデータ分布の重み付けを行い,近似支援制約定式化を得る。
再重み付けされた分布は、現在の政策と、おそらく行動政策の下にある貧しい行動のマイニングのために訓練された追加政策の混合である。
提案手法であるCQL(ReDS)は,Atariゲームやナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題のパフォーマンス向上を実現している。
関連論文リスト
- Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。