論文の概要: Critic Regularized Regression
- arxiv url: http://arxiv.org/abs/2006.15134v3
- Date: Wed, 22 Sep 2021 20:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:47:40.834073
- Title: Critic Regularized Regression
- Title(参考訳): 批判的正規化回帰
- Authors: Ziyu Wang, Alexander Novikov, Konrad Zolna, Jost Tobias Springenberg,
Scott Reed, Bobak Shahriari, Noah Siegel, Josh Merel, Caglar Gulcehre,
Nicolas Heess, Nando de Freitas
- Abstract要約: 批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
- 参考スコア(独自算出の注目度): 70.8487887738354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL), also known as batch RL, offers the
prospect of policy optimization from large pre-recorded datasets without online
environment interaction. It addresses challenges with regard to the cost of
data collection and safety, both of which are particularly pertinent to
real-world applications of RL. Unfortunately, most off-policy algorithms
perform poorly when learning from a fixed dataset. In this paper, we propose a
novel offline RL algorithm to learn policies from data using a form of
critic-regularized regression (CRR). We find that CRR performs surprisingly
well and scales to tasks with high-dimensional state and action spaces --
outperforming several state-of-the-art offline RL algorithms by a significant
margin on a wide range of benchmark tasks.
- Abstract(参考訳): オフライン強化学習(RL)はバッチRLとしても知られ、オンライン環境の相互作用を伴わない大規模な事前記録データセットからポリシー最適化の見通しを提供する。
データ収集と安全性のコストに関する課題に対処するが、どちらも実世界のRLアプリケーションに特に関係している。
残念なことに、ほとんどのオフポリシーアルゴリズムは、固定データセットから学習するときに性能が悪い。
本稿では,批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
関連論文リスト
- Offline Reinforcement Learning for Wireless Network Optimization with
Mixture Datasets [13.22086908661673]
強化学習(RL)により、無線無線リソース管理(RRM)におけるオンラインRLの採用が促進された。
オンラインRLアルゴリズムは環境と直接対話する必要がある。
オフラインのRLは、すべての関連する行動ポリシーが非常に最適である場合でも、ほぼ最適のRLポリシーを生成することができる。
論文 参考訳(メタデータ) (2023-11-19T21:02:17Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。