Fugu-MT 論文翻訳(概要): Critic Regularized Regression

論文の概要: Critic Regularized Regression

arxiv url: http://arxiv.org/abs/2006.15134v3
Date: Wed, 22 Sep 2021 20:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 20:47:40.834073
Title: Critic Regularized Regression
Title（参考訳）: 批判的正規化回帰
Authors: Ziyu Wang, Alexander Novikov, Konrad Zolna, Jost Tobias Springenberg, Scott Reed, Bobak Shahriari, Noah Siegel, Josh Merel, Caglar Gulcehre, Nicolas Heess, Nando de Freitas
Abstract要約: 批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
参考スコア（独自算出の注目度）: 70.8487887738354
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.
Abstract（参考訳）: オフライン強化学習(RL)はバッチRLとしても知られ、オンライン環境の相互作用を伴わない大規模な事前記録データセットからポリシー最適化の見通しを提供する。データ収集と安全性のコストに関する課題に対処するが、どちらも実世界のRLアプリケーションに特に関係している。残念なことに、ほとんどのオフポリシーアルゴリズムは、固定データセットから学習するときに性能が悪い。本稿では,批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。

関連論文リスト

D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Offline Reinforcement Learning for Wireless Network Optimization with Mixture Datasets [13.22086908661673]
強化学習(RL)により、無線無線リソース管理(RRM)におけるオンラインRLの採用が促進された。オンラインRLアルゴリズムは環境と直接対話する必要がある。オフラインのRLは、すべての関連する行動ポリシーが非常に最適である場合でも、ほぼ最適のRLポリシーを生成することができる。
論文参考訳（メタデータ） (2023-11-19T21:02:17Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文参考訳（メタデータ） (2021-06-12T20:38:59Z)
POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。 POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-12-26T06:24:34Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。