論文の概要: Boosting Offline Reinforcement Learning via Data Rebalancing
- arxiv url: http://arxiv.org/abs/2210.09241v1
- Date: Mon, 17 Oct 2022 16:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:29:52.801366
- Title: Boosting Offline Reinforcement Learning via Data Rebalancing
- Title(参考訳): データリバランスによるオフライン強化学習の促進
- Authors: Yang Yue, Bingyi Kang, Xiao Ma, Zhongwen Xu, Gao Huang, Shuicheng Yan
- Abstract要約: オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
- 参考スコア(独自算出の注目度): 104.3767045977716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) is challenged by the distributional shift
between learning policies and datasets. To address this problem, existing works
mainly focus on designing sophisticated algorithms to explicitly or implicitly
constrain the learned policy to be close to the behavior policy. The constraint
applies not only to well-performing actions but also to inferior ones, which
limits the performance upper bound of the learned policy. Instead of aligning
the densities of two distributions, aligning the supports gives a relaxed
constraint while still being able to avoid out-of-distribution actions.
Therefore, we propose a simple yet effective method to boost offline RL
algorithms based on the observation that resampling a dataset keeps the
distribution support unchanged. More specifically, we construct a better
behavior policy by resampling each transition in an old dataset according to
its episodic return. We dub our method ReD (Return-based Data Rebalance), which
can be implemented with less than 10 lines of code change and adds negligible
running time. Extensive experiments demonstrate that ReD is effective at
boosting offline RL performance and orthogonal to decoupling strategies in
long-tailed classification. New state-of-the-arts are achieved on the D4RL
benchmark.
- Abstract(参考訳): オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって課題が解決される。
この問題に対処するため、既存の研究は主に、学習したポリシーを行動ポリシーに近いように明示的にまたは暗黙的に制約する洗練されたアルゴリズムの設計に焦点を当てている。
この制約は、優れた行動だけでなく、学習されたポリシーのパフォーマンス上限を制限する劣った行動にも適用される。
2つの分布の密度を整列させる代わりに、サポートの整列は緩やかな制約を与えると同時に、配布外アクションを回避できる。
そこで本研究では,データセットの再サンプリングによる分散サポートの維持を考慮し,オフラインRLアルゴリズムを簡易かつ効果的に向上させる手法を提案する。
より具体的には、古いデータセットの各トランジッションをエピソディックリターンに従って再サンプリングすることで、より優れた行動ポリシーを構築する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
大規模な実験により、ReDはオフラインのRL性能を高めるのに有効であり、長い尾の分類における分離戦略に直交することを示した。
新しい最先端技術はD4RLベンチマークで達成される。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A Policy-Guided Imitation Approach for Offline Reinforcement Learning [9.195775740684248]
政策誘導型オフラインRL(textttPOR)を紹介する。
textttPORは、オフラインRLの標準ベンチマークであるD4RLで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-15T15:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。