論文の概要: Dream and Search to Control: Latent Space Planning for Continuous
Control
- arxiv url: http://arxiv.org/abs/2010.09832v1
- Date: Mon, 19 Oct 2020 20:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:46:51.876314
- Title: Dream and Search to Control: Latent Space Planning for Continuous
Control
- Title(参考訳): 夢と制御への探索: 連続制御のための潜在空間計画
- Authors: Anurag Koul, Varun V. Kumar, Alan Fern, Somdeb Majumdar
- Abstract要約: 本稿では, 離散空間におけるブートストラップの利点のタイプを示すことができることを示す。
特に、このアプローチは、挑戦的な継続的制御ベンチマークの大部分において、サンプル効率とパフォーマンスの改善を実現している。
- 参考スコア(独自算出の注目度): 24.991127785736364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning and planning with latent space dynamics has been shown to be useful
for sample efficiency in model-based reinforcement learning (MBRL) for discrete
and continuous control tasks. In particular, recent work, for discrete action
spaces, demonstrated the effectiveness of latent-space planning via Monte-Carlo
Tree Search (MCTS) for bootstrapping MBRL during learning and at test time.
However, the potential gains from latent-space tree search have not yet been
demonstrated for environments with continuous action spaces. In this work, we
propose and explore an MBRL approach for continuous action spaces based on
tree-based planning over learned latent dynamics. We show that it is possible
to demonstrate the types of bootstrapping benefits as previously shown for
discrete spaces. In particular, the approach achieves improved sample
efficiency and performance on a majority of challenging continuous-control
benchmarks compared to the state-of-the-art.
- Abstract(参考訳): 遅延空間力学による学習と計画は、離散的かつ連続的な制御タスクのためのモデルベース強化学習(MBRL)におけるサンプル効率に有用であることが示されている。
特に最近の研究は、離散的な行動空間において、MCTS(Monte-Carlo Tree Search)による学習時とテスト時のMBRLのブートストラップの有効性を示した。
しかし、連続的な行動空間を持つ環境では、潜在空間木探索による潜在的な利益がまだ示されていない。
本研究では,学習された潜在力学に対する木に基づく計画に基づく連続行動空間に対するMBRLアプローチを提案する。
本稿では, 離散空間におけるブートストラップの利点のタイプを示すことができることを示す。
特に、このアプローチは、最先端のベンチマークと比べて、挑戦的な連続制御ベンチマークの大部分において、サンプル効率とパフォーマンスの向上を実現している。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - Efficient Planning with Latent Diffusion [18.678459478837976]
時間的抽象化と効率的な計画は、オフライン強化学習において大きな課題となる。
潜在アクションスペースはよりフレキシブルなパラダイムを提供し、行動ポリシーサポート内でのみ可能なアクションをキャプチャします。
本稿では,潜伏行動空間の連続的表現学習と計画のための統合的フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-09-30T08:50:49Z) - Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method
and Contrastive Learning [21.995159117991278]
そこで我々はCuriosity CEMを提案する。Curiosity CEMはCEM(Cross-Entropy Method)アルゴリズムの改良版である。
提案手法は,計画地平線上の状態-作用Q値の総和を最大化し,これらのQ値が将来の外因性および内因性報酬を推定する。
DeepMind Controlスイートによるイメージベース連続制御タスクの実験では、CCEMは以前のMBRLアルゴリズムよりも大きなマージンでサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2023-03-07T10:48:20Z) - Adaptive Discretization using Voronoi Trees for Continuous POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
論文 参考訳(メタデータ) (2023-02-21T04:47:34Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Predictive Coding for Locally-Linear Control [92.35650774524399]
高次元観測と未知のダイナミクスは、多くの実世界の意思決定タスクに最適な制御を適用する際に大きな課題である。
Learning Controllable Embedding (LCE)フレームワークは、観測結果を低次元の潜伏空間に埋め込むことによって、これらの課題に対処する。
理論的には、明示的な次観測予測を予測符号化に置き換えることが可能である。
論文 参考訳(メタデータ) (2020-03-02T18:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。