論文の概要: Zero-Shot Reinforcement Learning from Low Quality Data
- arxiv url: http://arxiv.org/abs/2309.15178v2
- Date: Wed, 17 Apr 2024 09:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:40:10.939377
- Title: Zero-Shot Reinforcement Learning from Low Quality Data
- Title(参考訳): 低品質データによるゼロショット強化学習
- Authors: Scott Jeen, Tom Bewley, Jonathan M. Cullen,
- Abstract要約: ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。
そこで本研究では、ゼロショットRL法の性能が、小さな同種データセットでトレーニングした場合にどのように低下するかを考察する。
本稿では,単一タスクのオフラインRLアルゴリズムの高性能な特徴である保守性に着想を得た修正を提案する。
- 参考スコア(独自算出の注目度): 5.079602839359521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reinforcement learning (RL) promises to provide agents that can perform any task in an environment after an offline, reward-free pre-training phase. Methods leveraging successor measures and successor features have shown strong performance in this setting, but require access to large heterogenous datasets for pre-training which cannot be expected for most real problems. Here, we explore how the performance of zero-shot RL methods degrades when trained on small homogeneous datasets, and propose fixes inspired by conservatism, a well-established feature of performant single-task offline RL algorithms. We evaluate our proposals across various datasets, domains and tasks, and show that conservative zero-shot RL algorithms outperform their non-conservative counterparts on low quality datasets, and perform no worse on high quality datasets. Somewhat surprisingly, our proposals also outperform baselines that get to see the task during training. Our code is available via https://enjeeneer.io/projects/zero-shot-rl/.
- Abstract(参考訳): ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。
後継尺度と後継特徴を利用する手法はこの設定では高い性能を示してきたが、実際のほとんどの問題には期待できない事前学習のための大きな異種データセットへのアクセスが必要である。
本稿では、ゼロショットRL法の性能が、小さな均一なデータセットでトレーニングされた場合、どのように劣化するかを考察し、パフォーマンスの高い単一タスクオフラインRLアルゴリズムの確立した特徴である保守性に着想を得た修正を提案する。
提案手法は,各種データセット,ドメイン,タスクにまたがって評価し,保守的ゼロショットRLアルゴリズムが低品質データセットにおいて非保守的アルゴリズムよりも優れており,高品質データセットでは悪い結果が得られないことを示す。
驚くべきことに、私たちの提案はトレーニング中にタスクを見るためのベースラインよりも優れています。
私たちのコードはhttps://enjeeneer.io/projects/zero-shot-rl/で利用可能です。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。