論文の概要: Model-Based Reinforcement Learning via Latent-Space Collocation
- arxiv url: http://arxiv.org/abs/2106.13229v1
- Date: Thu, 24 Jun 2021 17:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:13:14.282486
- Title: Model-Based Reinforcement Learning via Latent-Space Collocation
- Title(参考訳): 潜在空間コロケーションによるモデルベース強化学習
- Authors: Oleh Rybkin, Chuning Zhu, Anusha Nagabandi, Kostas Daniilidis, Igor
Mordatch, Sergey Levine
- Abstract要約: 我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
- 参考スコア(独自算出の注目度): 110.04005442935828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to plan into the future while utilizing only raw high-dimensional
observations, such as images, can provide autonomous agents with broad
capabilities. Visual model-based reinforcement learning (RL) methods that plan
future actions directly have shown impressive results on tasks that require
only short-horizon reasoning, however, these methods struggle on temporally
extended tasks. We argue that it is easier to solve long-horizon tasks by
planning sequences of states rather than just actions, as the effects of
actions greatly compound over time and are harder to optimize. To achieve this,
we draw on the idea of collocation, which has shown good results on
long-horizon tasks in optimal control literature, and adapt it to the
image-based setting by utilizing learned latent state space models. The
resulting latent collocation method (LatCo) optimizes trajectories of latent
states, which improves over previously proposed shooting methods for visual
model-based RL on tasks with sparse rewards and long-term goals. Videos and
code at https://orybkin.github.io/latco/.
- Abstract(参考訳): 画像などの生の高次元観測のみを利用して将来計画する能力は、自律エージェントに幅広い能力を与えることができる。
将来の行動を直接計画する視覚モデルに基づく強化学習(rl)手法は、短期的な推論のみを必要とするタスクに対して印象的な結果を示すが、これらの手法は時間的に拡張されたタスクに支障をきたす。
我々は、アクションの効果が時間とともに大きく重なり、最適化が困難であるため、アクションではなく状態のシーケンスを計画することで、長いホリゾンタスクの解決が容易であると主張する。
これを実現するために、最適制御文学における長い水平タスクに対する良い結果を示すコロケーションの概念を導き、学習された潜在状態空間モデルを利用して画像ベースの設定に適応する。
得られた潜在コロケーション法(LatCo)は潜在状態の軌跡を最適化し、より少ない報酬と長期目標を持つタスクにおける視覚モデルに基づくRLの撮影方法を改善する。
ビデオとコードはhttps://orybkin.github.io/latco/。
関連論文リスト
- Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning [21.995159117991278]
そこで我々はCuriosity CEMを提案する。Curiosity CEMはCEM(Cross-Entropy Method)アルゴリズムの改良版である。
提案手法は,計画地平線上の状態-作用Q値の総和を最大化し,これらのQ値が将来の外因性および内因性報酬を推定する。
DeepMind Controlスイートによるイメージベース連続制御タスクの実験では、CCEMは以前のMBRLアルゴリズムよりも大きなマージンでサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2023-03-07T10:48:20Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Skill-based Model-based Reinforcement Learning [18.758245582997656]
モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
論文 参考訳(メタデータ) (2022-07-15T16:06:33Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。