論文の概要: Transferable Reinforcement Learning via Generalized Occupancy Models
- arxiv url: http://arxiv.org/abs/2403.06328v1
- Date: Sun, 10 Mar 2024 22:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:53:01.206850
- Title: Transferable Reinforcement Learning via Generalized Occupancy Models
- Title(参考訳): 一般化占有モデルによる移動性強化学習
- Authors: Chuning Zhu, Xinqi Wang, Tyler Han, Simon S. Du, Abhishek Gupta
- Abstract要約: 一般化占有モデル(GOM)の新たなクラスを提案する。
GOMは、定常データセットのカバレッジの下で、ある状態から可能なすべての長期的な結果の分布をモデル化する。
GOMは任意の報酬関数の一般性を保ちながら複合エラーを避ける。
- 参考スコア(独自算出の注目度): 39.19488782783677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent agents must be generalists - showing the ability to quickly adapt
and generalize to varying tasks. Within the framework of reinforcement learning
(RL), model-based RL algorithms learn a task-agnostic dynamics model of the
world, in principle allowing them to generalize to arbitrary rewards. However,
one-step models naturally suffer from compounding errors, making them
ineffective for problems with long horizons and large state spaces. In this
work, we propose a novel class of models - generalized occupancy models (GOMs)
- that retain the generality of model-based RL while avoiding compounding
error. The key idea behind GOMs is to model the distribution of all possible
long-term outcomes from a given state under the coverage of a stationary
dataset, along with a policy that realizes a particular outcome from the given
state. These models can then quickly be used to select the optimal action for
arbitrary new tasks, without having to redo policy optimization. By directly
modeling long-term outcomes, GOMs avoid compounding error while retaining
generality across arbitrary reward functions. We provide a practical
instantiation of GOMs using diffusion models and show its efficacy as a new
class of transferable models, both theoretically and empirically across a
variety of simulated robotics problems. Videos and code at
https://weirdlabuw.github.io/gom/.
- Abstract(参考訳): インテリジェントエージェントはジェネラリストでなければならない - さまざまなタスクに迅速に適応し、一般化する能力を示す。
強化学習(RL)の枠組みの中で、モデルに基づくRLアルゴリズムは、原則として任意の報酬に一般化できるように、世界のタスクに依存しない力学モデルを学ぶ。
しかし、ワンステップモデルは自然に複合誤差に苦しむため、長い地平線や大きな状態空間の問題には効果がない。
本研究では,モデルベースRLの一般性を維持しつつ,複合誤差を回避し,新たなモデルのクラス(一般化占有モデル(GOM))を提案する。
GOMの背景にある重要な考え方は、定常データセットのカバレッジの下で、特定の状態から特定の結果を実現するポリシーとともに、ある状態から可能なすべての長期的な結果の分布をモデル化することである。
これらのモデルは、ポリシーの最適化を再設計することなく、任意の新しいタスクに最適なアクションを選択するために素早く使用できる。
GOMは長期的な結果を直接モデル化することにより、任意の報酬関数の一般性を保ちながら複雑なエラーを避ける。
拡散モデルを用いたgomsの実用的インスタンス化を行い,その効果を,理論上および経験上,様々なシミュレーションロボット工学的問題にまたがる移動可能モデルの新たなクラスとして示す。
ビデオとコードはhttps://weirdlabuw.github.io/gom/。
関連論文リスト
- Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。