論文の概要: Conservative World Models
- arxiv url: http://arxiv.org/abs/2309.15178v1
- Date: Tue, 26 Sep 2023 18:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:08:28.205805
- Title: Conservative World Models
- Title(参考訳): 保守的世界モデル
- Authors: Scott Jeen, Tom Bewley, Jonathan M. Cullen
- Abstract要約: フォワード・バックワード表現は、この設定におけるタスク固有のエージェントのパフォーマンスの85%を達成する。
このようなパフォーマンスは、事前トレーニング用の大規模で多様なデータセットへのアクセスに欠かせない。
ここでは、多様性に欠ける小さなデータセットでトレーニングした際のFBパフォーマンスの低下について検討する。
- 参考スコア(独自算出の注目度): 5.70896453969985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reinforcement learning (RL) promises to provide agents that can
perform any task in an environment after an offline pre-training phase.
Forward-backward (FB) representations represent remarkable progress towards
this ideal, achieving 85% of the performance of task-specific agents in this
setting. However, such performance is contingent on access to large and diverse
datasets for pre-training, which cannot be expected for most real problems.
Here, we explore how FB performance degrades when trained on small datasets
that lack diversity, and mitigate it with conservatism, a well-established
feature of performant offline RL algorithms. We evaluate our family of methods
across various datasets, domains and tasks, reaching 150% of vanilla FB
performance in aggregate. Somewhat surprisingly, conservative FB algorithms
also outperform the task-specific baseline, despite lacking access to reward
labels and being required to maintain policies for all tasks. Conservative FB
algorithms perform no worse than FB on full datasets, and so present little
downside over their predecessor. Our code is available open-source via
https://enjeeneer.io/projects/conservative-world-models/.
- Abstract(参考訳): zero-shot reinforcement learning(rl)は、オフライン事前トレーニングフェーズの後、環境内で任意のタスクを実行できるエージェントを提供することを約束する。
フォワード・バックワード(FB)表現はこの理想に向かって顕著な進歩を示し、タスク固有のエージェントのパフォーマンスの85%を達成している。
しかし、このようなパフォーマンスは、ほとんどの実際の問題に対して期待できない、大規模で多様な事前トレーニング用データセットへのアクセスに依存している。
ここでは、多様性に欠ける小さなデータセットでトレーニングされた場合、FBパフォーマンスがいかに劣化するかを検討し、それを保守性によって緩和する。
さまざまなデータセット、ドメイン、タスクにまたがるメソッドファミリーを評価し、総計でバニラfbパフォーマンスの150%に達します。
やや意外なことに、保守的なfbアルゴリズムは、報酬ラベルへのアクセスがなく、すべてのタスクのポリシーを維持する必要があるにもかかわらず、タスク固有のベースラインを上回っている。
保守的なfbアルゴリズムは完全なデータセットでfbよりもパフォーマンスが良いので、前者に対するマイナス面はほとんどない。
私たちのコードはhttps://enjeeneer.io/projects/conservative-world-models/で公開されています。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。