論文の概要: Optimistic Active Exploration of Dynamical Systems
- arxiv url: http://arxiv.org/abs/2306.12371v2
- Date: Mon, 30 Oct 2023 15:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:05:29.973078
- Title: Optimistic Active Exploration of Dynamical Systems
- Title(参考訳): 動的システムの最適アクティブ探索
- Authors: Bhavya Sukhija, Lenart Treven, Cansu Sancaktar, Sebastian Blaes,
Stelian Coros, Andreas Krause
- Abstract要約: 我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
- 参考スコア(独自算出の注目度): 52.91573056896633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms commonly seek to optimize policies for
solving one particular task. How should we explore an unknown dynamical system
such that the estimated model globally approximates the dynamics and allows us
to solve multiple downstream tasks in a zero-shot manner? In this paper, we
address this challenge, by developing an algorithm -- OPAX -- for active
exploration. OPAX uses well-calibrated probabilistic models to quantify the
epistemic uncertainty about the unknown dynamics. It optimistically -- w.r.t.
to plausible dynamics -- maximizes the information gain between the unknown
dynamics and state observations. We show how the resulting optimization problem
can be reduced to an optimal control problem that can be solved at each episode
using standard approaches. We analyze our algorithm for general models, and, in
the case of Gaussian process dynamics, we give a first-of-its-kind sample
complexity bound and show that the epistemic uncertainty converges to zero. In
our experiments, we compare OPAX with other heuristic active exploration
approaches on several environments. Our experiments show that OPAX is not only
theoretically sound but also performs well for zero-shot planning on novel
downstream tasks.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、特定のタスクを解決するためのポリシーを最適化しようとする。
推定モデルが大域的にダイナミクスを近似し,ゼロショットで複数のダウンストリームタスクを解決できるように,未知の力学系を探索するにはどうすればよいのか?
本稿では,この課題に対して,アクティブな探索のためのアルゴリズムであるOPAXを開発した。
OPAXは、よく校正された確率モデルを用いて、未知のダイナミクスに関する疫学的な不確かさを定量化する。
それは楽観的に -- w.r.t. to plausible dynamics -- 未知のダイナミクスと状態観察の間の情報ゲインを最大化する。
提案手法では, 結果の最適化問題を各エピソードで標準手法を用いて解くことができる最適制御問題に還元する方法を示す。
一般モデルに対してアルゴリズムを解析し,ガウス過程のダイナミクスの場合,初歩的なサンプル複雑性を限定し,認識的不確かさがゼロに収束することを示す。
実験では,OPAXと他のヒューリスティックな探索手法との比較を行った。
実験の結果,OPAXは理論的に健全であるだけでなく,新しい下流タスクのゼロショット計画にも有効であることがわかった。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Foundational Inference Models for Dynamical Systems [5.549794481031468]
我々は,ODEによって決定されると仮定される時系列データの欠落を補うという古典的な問題に対して,新たな視点を提供する。
本稿では,いくつかの(隠れた)ODEを満たすパラメトリック関数を通じて,ゼロショット時系列計算のための新しい教師付き学習フレームワークを提案する。
我々は,1と同一(事前学習)の認識モデルが,63個の異なる時系列に対してゼロショット計算を行なえることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-12T11:48:54Z) - FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。