論文の概要: Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2303.03787v2
- Date: Sun, 10 Sep 2023 11:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:10:30.353832
- Title: Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning
- Title(参考訳): 好奇性クロスエントロピー法によるサンプル効率実時間計画とコントラスト学習
- Authors: Mostafa Kotb, Cornelius Weber, Stefan Wermter
- Abstract要約: そこで我々はCuriosity CEMを提案する。Curiosity CEMはCEM(Cross-Entropy Method)アルゴリズムの改良版である。
提案手法は,計画地平線上の状態-作用Q値の総和を最大化し,これらのQ値が将来の外因性および内因性報酬を推定する。
DeepMind Controlスイートによるイメージベース連続制御タスクの実験では、CCEMは以前のMBRLアルゴリズムよりも大きなマージンでサンプリング効率が高いことが示されている。
- 参考スコア(独自算出の注目度): 21.995159117991278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) with real-time planning has shown
great potential in locomotion and manipulation control tasks. However, the
existing planning methods, such as the Cross-Entropy Method (CEM), do not scale
well to complex high-dimensional environments. One of the key reasons for
underperformance is the lack of exploration, as these planning methods only aim
to maximize the cumulative extrinsic reward over the planning horizon.
Furthermore, planning inside the compact latent space in the absence of
observations makes it challenging to use curiosity-based intrinsic motivation.
We propose Curiosity CEM (CCEM), an improved version of the CEM algorithm for
encouraging exploration via curiosity. Our proposed method maximizes the sum of
state-action Q values over the planning horizon, in which these Q values
estimate the future extrinsic and intrinsic reward, hence encouraging reaching
novel observations. In addition, our model uses contrastive representation
learning to efficiently learn latent representations. Experiments on
image-based continuous control tasks from the DeepMind Control suite show that
CCEM is by a large margin more sample-efficient than previous MBRL algorithms
and compares favorably with the best model-free RL methods.
- Abstract(参考訳): 実時間計画を伴うモデルベース強化学習(MBRL)は、移動および操作制御タスクにおいて大きな可能性を示している。
しかし、CEM(Cross-Entropy Method)のような既存の計画手法は、複雑な高次元環境に対してうまくスケールしない。
これらの計画手法は、計画の地平線に対する累積的外因的な報酬を最大化することだけを目的としている。
さらに、観測のないコンパクトな潜伏空間内での計画は好奇心に基づく本質的な動機付けの使用を困難にしている。
CEMアルゴリズムの改良版であるCuriosity CEM (CCEM)を提案する。
提案手法は,計画地平線上の状態行動q値の総和を最大化し,これらのq値が将来の外因的および内因的報酬を推定する。
さらに,本モデルではコントラスト表現学習を用いて遅延表現を効率的に学習する。
DeepMind Control スイートによる画像ベース連続制御タスクの実験では、CCEM は以前の MBRL アルゴリズムよりも広いマージンでサンプリング効率が良く、最良のモデルレス RL 法と比較できる。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Dream and Search to Control: Latent Space Planning for Continuous
Control [24.991127785736364]
本稿では, 離散空間におけるブートストラップの利点のタイプを示すことができることを示す。
特に、このアプローチは、挑戦的な継続的制御ベンチマークの大部分において、サンプル効率とパフォーマンスの改善を実現している。
論文 参考訳(メタデータ) (2020-10-19T20:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。