Fugu-MT 論文翻訳(概要): Conservative World Models

論文の概要: Conservative World Models

arxiv url: http://arxiv.org/abs/2309.15178v1
Date: Tue, 26 Sep 2023 18:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 18:08:28.205805
Title: Conservative World Models
Title（参考訳）: 保守的世界モデル
Authors: Scott Jeen, Tom Bewley, Jonathan M. Cullen
Abstract要約: フォワード・バックワード表現は、この設定におけるタスク固有のエージェントのパフォーマンスの85%を達成する。このようなパフォーマンスは、事前トレーニング用の大規模で多様なデータセットへのアクセスに欠かせない。ここでは、多様性に欠ける小さなデータセットでトレーニングした際のFBパフォーマンスの低下について検討する。
参考スコア（独自算出の注目度）: 5.70896453969985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot reinforcement learning (RL) promises to provide agents that can perform any task in an environment after an offline pre-training phase. Forward-backward (FB) representations represent remarkable progress towards this ideal, achieving 85% of the performance of task-specific agents in this setting. However, such performance is contingent on access to large and diverse datasets for pre-training, which cannot be expected for most real problems. Here, we explore how FB performance degrades when trained on small datasets that lack diversity, and mitigate it with conservatism, a well-established feature of performant offline RL algorithms. We evaluate our family of methods across various datasets, domains and tasks, reaching 150% of vanilla FB performance in aggregate. Somewhat surprisingly, conservative FB algorithms also outperform the task-specific baseline, despite lacking access to reward labels and being required to maintain policies for all tasks. Conservative FB algorithms perform no worse than FB on full datasets, and so present little downside over their predecessor. Our code is available open-source via https://enjeeneer.io/projects/conservative-world-models/.
Abstract（参考訳）: zero-shot reinforcement learning(rl)は、オフライン事前トレーニングフェーズの後、環境内で任意のタスクを実行できるエージェントを提供することを約束する。フォワード・バックワード(FB)表現はこの理想に向かって顕著な進歩を示し、タスク固有のエージェントのパフォーマンスの85%を達成している。しかし、このようなパフォーマンスは、ほとんどの実際の問題に対して期待できない、大規模で多様な事前トレーニング用データセットへのアクセスに依存している。ここでは、多様性に欠ける小さなデータセットでトレーニングされた場合、FBパフォーマンスがいかに劣化するかを検討し、それを保守性によって緩和する。さまざまなデータセット、ドメイン、タスクにまたがるメソッドファミリーを評価し、総計でバニラfbパフォーマンスの150%に達します。やや意外なことに、保守的なfbアルゴリズムは、報酬ラベルへのアクセスがなく、すべてのタスクのポリシーを維持する必要があるにもかかわらず、タスク固有のベースラインを上回っている。保守的なfbアルゴリズムは完全なデータセットでfbよりもパフォーマンスが良いので、前者に対するマイナス面はほとんどない。私たちのコードはhttps://enjeeneer.io/projects/conservative-world-models/で公開されています。

関連論文リスト

Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。 3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文参考訳（メタデータ） (2025-06-13T06:05:58Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文参考訳（メタデータ） (2023-09-12T20:58:21Z)
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。 ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。 ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-06T05:51:38Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文参考訳（メタデータ） (2020-04-15T17:18:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。