論文の概要: Localized active learning of Gaussian process state space models
- arxiv url: http://arxiv.org/abs/2005.02191v3
- Date: Tue, 9 Jun 2020 19:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:39:28.896004
- Title: Localized active learning of Gaussian process state space models
- Title(参考訳): ガウス過程状態空間モデルの局所的能動学習
- Authors: Alexandre Capone, Jonas Umlauft, Thomas Beckers, Armin Lederer, Sandra
Hirche
- Abstract要約: 多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
- 参考スコア(独自算出の注目度): 63.97366815968177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of learning-based control techniques crucially depends on how
effectively the system is explored. While most exploration techniques aim to
achieve a globally accurate model, such approaches are generally unsuited for
systems with unbounded state spaces. Furthermore, a globally accurate model is
not required to achieve good performance in many common control applications,
e.g., local stabilization tasks. In this paper, we propose an active learning
strategy for Gaussian process state space models that aims to obtain an
accurate model on a bounded subset of the state-action space. Our approach aims
to maximize the mutual information of the exploration trajectories with respect
to a discretization of the region of interest. By employing model predictive
control, the proposed technique integrates information collected during
exploration and adaptively improves its exploration strategy. To enable
computational tractability, we decouple the choice of most informative data
points from the model predictive control optimization step. This yields two
optimization problems that can be solved in parallel. We apply the proposed
method to explore the state space of various dynamical systems and compare our
approach to a commonly used entropy-based exploration strategy. In all
experiments, our method yields a better model within the region of interest
than the entropy-based method.
- Abstract(参考訳): 学習に基づく制御技術の性能は、システムがいかに効果的に探索されるかに大きく依存する。
ほとんどの探査技術は、グローバルに正確なモデルを達成することを目標としているが、そのようなアプローチは一般に、境界のない状態空間を持つシステムには適さない。
さらに、局所安定化タスクなど、多くの共通制御アプリケーションにおいて優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的とした,ガウス過程状態空間モデルの能動的学習戦略を提案する。
本研究の目的は,関心領域の離散化に関して,探索軌跡の相互情報の最大化である。
モデル予測制御を用いることにより,探索中に収集した情報を統合し,探索戦略を適応的に改善する。
計算的トラクタビリティを実現するため、最も情報性の高いデータポイントの選択をモデル予測制御最適化ステップから切り離す。
これにより、2つの最適化問題を並列に解くことができる。
提案手法は, 様々な力学系の状態空間を探索するために応用し, 一般的なエントロピーに基づく探索手法と比較する。
すべての実験において,本手法はエントロピー法よりも関心領域のモデルが優れている。
関連論文リスト
- Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - SEAL: Simultaneous Exploration and Localization in Multi-Robot Systems [0.0]
本稿では,新しい同時探索と局所化手法を提案する。
相対的なローカライゼーションのために通信グラフ最適化を行いながら、最大探索に情報融合を用いる。
広範囲なROS-Gazeboシミュレーションにおける探索および位置決め性能のショートエッジ法より優れたSEAL
論文 参考訳(メタデータ) (2023-06-22T01:27:55Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge
with Data-Driven Control [22.549914935697366]
カーネル埋め込みを用いたデータ駆動制御アルゴリズムに事前知識を組み込む手法を提案する。
提案手法は,カーネル学習問題におけるバイアス項として,システムダイナミクスの事前知識を取り入れたものである。
純粋にデータ駆動ベースライン上でのサンプル効率の向上と,我々のアプローチのアウト・オブ・サンプル一般化を実証する。
論文 参考訳(メタデータ) (2023-01-09T18:35:32Z) - Partitioned Active Learning for Heterogeneous Systems [5.331649110169476]
本稿では,pgp(partitioned gp)モデルに基づく分断アクティブラーニング戦略を提案する。
グローバル検索は、アクティブラーニングの探索の側面を加速する。
ローカル検索は、ローカルGPモデルによって誘導されるアクティブ学習基準を利用する。
論文 参考訳(メタデータ) (2021-05-14T02:05:31Z) - Application-Driven Learning: A Closed-Loop Prediction and Optimization
Approach Applied to Dynamic Reserves and Demand Forecasting [62.997667081978825]
我々は、予測と意思決定のプロセスが統合され、協調最適化される新しいクローズドループフレームワークであるアプリケーション駆動学習を提案する。
提案手法は拡張性があり,標準のオープンループ手法よりも一貫して性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-26T02:43:28Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Planning from Images with Deep Latent Gaussian Process Dynamics [2.924868086534434]
計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
本稿では,環境と視覚的相互作用から低次元システムダイナミクスを学習する,遅延ガウス過程力学(DLGPD)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-07T21:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。