論文の概要: Localized active learning of Gaussian process state space models
- arxiv url: http://arxiv.org/abs/2005.02191v3
- Date: Tue, 9 Jun 2020 19:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:39:28.896004
- Title: Localized active learning of Gaussian process state space models
- Title(参考訳): ガウス過程状態空間モデルの局所的能動学習
- Authors: Alexandre Capone, Jonas Umlauft, Thomas Beckers, Armin Lederer, Sandra
Hirche
- Abstract要約: 多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
- 参考スコア(独自算出の注目度): 63.97366815968177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of learning-based control techniques crucially depends on how
effectively the system is explored. While most exploration techniques aim to
achieve a globally accurate model, such approaches are generally unsuited for
systems with unbounded state spaces. Furthermore, a globally accurate model is
not required to achieve good performance in many common control applications,
e.g., local stabilization tasks. In this paper, we propose an active learning
strategy for Gaussian process state space models that aims to obtain an
accurate model on a bounded subset of the state-action space. Our approach aims
to maximize the mutual information of the exploration trajectories with respect
to a discretization of the region of interest. By employing model predictive
control, the proposed technique integrates information collected during
exploration and adaptively improves its exploration strategy. To enable
computational tractability, we decouple the choice of most informative data
points from the model predictive control optimization step. This yields two
optimization problems that can be solved in parallel. We apply the proposed
method to explore the state space of various dynamical systems and compare our
approach to a commonly used entropy-based exploration strategy. In all
experiments, our method yields a better model within the region of interest
than the entropy-based method.
- Abstract(参考訳): 学習に基づく制御技術の性能は、システムがいかに効果的に探索されるかに大きく依存する。
ほとんどの探査技術は、グローバルに正確なモデルを達成することを目標としているが、そのようなアプローチは一般に、境界のない状態空間を持つシステムには適さない。
さらに、局所安定化タスクなど、多くの共通制御アプリケーションにおいて優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的とした,ガウス過程状態空間モデルの能動的学習戦略を提案する。
本研究の目的は,関心領域の離散化に関して,探索軌跡の相互情報の最大化である。
モデル予測制御を用いることにより,探索中に収集した情報を統合し,探索戦略を適応的に改善する。
計算的トラクタビリティを実現するため、最も情報性の高いデータポイントの選択をモデル予測制御最適化ステップから切り離す。
これにより、2つの最適化問題を並列に解くことができる。
提案手法は, 様々な力学系の状態空間を探索するために応用し, 一般的なエントロピーに基づく探索手法と比較する。
すべての実験において,本手法はエントロピー法よりも関心領域のモデルが優れている。
関連論文リスト
- Recursive Gaussian Process State Space Model [4.572915072234487]
動作領域とGPハイパーパラメータの両方に適応可能な新しいオンラインGPSSM法を提案する。
ポイントを誘導するオンライン選択アルゴリズムは、情報的基準に基づいて開発され、軽量な学習を実現する。
合成データセットと実世界のデータセットの総合的な評価は,提案手法の精度,計算効率,適応性を示す。
論文 参考訳(メタデータ) (2024-11-22T02:22:59Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - The CAST package for training and assessment of spatial prediction models in R [0.0]
CASTパッケージとその機能について紹介する。
モデリングワークフローのさまざまなステップを調べて、より信頼性の高い空間予測をサポートするためにCASTをどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-04-10T12:48:10Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Partitioned Active Learning for Heterogeneous Systems [5.331649110169476]
本稿では,pgp(partitioned gp)モデルに基づく分断アクティブラーニング戦略を提案する。
グローバル検索は、アクティブラーニングの探索の側面を加速する。
ローカル検索は、ローカルGPモデルによって誘導されるアクティブ学習基準を利用する。
論文 参考訳(メタデータ) (2021-05-14T02:05:31Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。