論文の概要: Conservative World Models
- arxiv url: http://arxiv.org/abs/2309.15178v1
- Date: Tue, 26 Sep 2023 18:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:08:28.205805
- Title: Conservative World Models
- Title(参考訳): 保守的世界モデル
- Authors: Scott Jeen, Tom Bewley, Jonathan M. Cullen
- Abstract要約: フォワード・バックワード表現は、この設定におけるタスク固有のエージェントのパフォーマンスの85%を達成する。
このようなパフォーマンスは、事前トレーニング用の大規模で多様なデータセットへのアクセスに欠かせない。
ここでは、多様性に欠ける小さなデータセットでトレーニングした際のFBパフォーマンスの低下について検討する。
- 参考スコア(独自算出の注目度): 5.70896453969985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reinforcement learning (RL) promises to provide agents that can
perform any task in an environment after an offline pre-training phase.
Forward-backward (FB) representations represent remarkable progress towards
this ideal, achieving 85% of the performance of task-specific agents in this
setting. However, such performance is contingent on access to large and diverse
datasets for pre-training, which cannot be expected for most real problems.
Here, we explore how FB performance degrades when trained on small datasets
that lack diversity, and mitigate it with conservatism, a well-established
feature of performant offline RL algorithms. We evaluate our family of methods
across various datasets, domains and tasks, reaching 150% of vanilla FB
performance in aggregate. Somewhat surprisingly, conservative FB algorithms
also outperform the task-specific baseline, despite lacking access to reward
labels and being required to maintain policies for all tasks. Conservative FB
algorithms perform no worse than FB on full datasets, and so present little
downside over their predecessor. Our code is available open-source via
https://enjeeneer.io/projects/conservative-world-models/.
- Abstract(参考訳): zero-shot reinforcement learning(rl)は、オフライン事前トレーニングフェーズの後、環境内で任意のタスクを実行できるエージェントを提供することを約束する。
フォワード・バックワード(FB)表現はこの理想に向かって顕著な進歩を示し、タスク固有のエージェントのパフォーマンスの85%を達成している。
しかし、このようなパフォーマンスは、ほとんどの実際の問題に対して期待できない、大規模で多様な事前トレーニング用データセットへのアクセスに依存している。
ここでは、多様性に欠ける小さなデータセットでトレーニングされた場合、FBパフォーマンスがいかに劣化するかを検討し、それを保守性によって緩和する。
さまざまなデータセット、ドメイン、タスクにまたがるメソッドファミリーを評価し、総計でバニラfbパフォーマンスの150%に達します。
やや意外なことに、保守的なfbアルゴリズムは、報酬ラベルへのアクセスがなく、すべてのタスクのポリシーを維持する必要があるにもかかわらず、タスク固有のベースラインを上回っている。
保守的なfbアルゴリズムは完全なデータセットでfbよりもパフォーマンスが良いので、前者に対するマイナス面はほとんどない。
私たちのコードはhttps://enjeeneer.io/projects/conservative-world-models/で公開されています。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting
the Tree [2.0142516017086165]
プレトレーニングは、パフォーマンスを高め、トレーニング時間を短縮するためのディープラーニングの一般的なテクニックである。
大規模かつ公開可能なデータセットとケースバイケース生成データセットを用いて,RLタスクの事前学習の有効性を評価した。
その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。
論文 参考訳(メタデータ) (2021-10-06T04:25:14Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。