論文の概要: Optimistic Active Exploration of Dynamical Systems
- arxiv url: http://arxiv.org/abs/2306.12371v2
- Date: Mon, 30 Oct 2023 15:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:05:29.973078
- Title: Optimistic Active Exploration of Dynamical Systems
- Title(参考訳): 動的システムの最適アクティブ探索
- Authors: Bhavya Sukhija, Lenart Treven, Cansu Sancaktar, Sebastian Blaes,
Stelian Coros, Andreas Krause
- Abstract要約: 我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
- 参考スコア(独自算出の注目度): 52.91573056896633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms commonly seek to optimize policies for
solving one particular task. How should we explore an unknown dynamical system
such that the estimated model globally approximates the dynamics and allows us
to solve multiple downstream tasks in a zero-shot manner? In this paper, we
address this challenge, by developing an algorithm -- OPAX -- for active
exploration. OPAX uses well-calibrated probabilistic models to quantify the
epistemic uncertainty about the unknown dynamics. It optimistically -- w.r.t.
to plausible dynamics -- maximizes the information gain between the unknown
dynamics and state observations. We show how the resulting optimization problem
can be reduced to an optimal control problem that can be solved at each episode
using standard approaches. We analyze our algorithm for general models, and, in
the case of Gaussian process dynamics, we give a first-of-its-kind sample
complexity bound and show that the epistemic uncertainty converges to zero. In
our experiments, we compare OPAX with other heuristic active exploration
approaches on several environments. Our experiments show that OPAX is not only
theoretically sound but also performs well for zero-shot planning on novel
downstream tasks.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、特定のタスクを解決するためのポリシーを最適化しようとする。
推定モデルが大域的にダイナミクスを近似し,ゼロショットで複数のダウンストリームタスクを解決できるように,未知の力学系を探索するにはどうすればよいのか?
本稿では,この課題に対して,アクティブな探索のためのアルゴリズムであるOPAXを開発した。
OPAXは、よく校正された確率モデルを用いて、未知のダイナミクスに関する疫学的な不確かさを定量化する。
それは楽観的に -- w.r.t. to plausible dynamics -- 未知のダイナミクスと状態観察の間の情報ゲインを最大化する。
提案手法では, 結果の最適化問題を各エピソードで標準手法を用いて解くことができる最適制御問題に還元する方法を示す。
一般モデルに対してアルゴリズムを解析し,ガウス過程のダイナミクスの場合,初歩的なサンプル複雑性を限定し,認識的不確かさがゼロに収束することを示す。
実験では,OPAXと他のヒューリスティックな探索手法との比較を行った。
実験の結果,OPAXは理論的に健全であるだけでなく,新しい下流タスクのゼロショット計画にも有効であることがわかった。
関連論文リスト
- FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems [6.612035830987298]
本稿では,最適設計に基づく非線形力学探索アルゴリズムFLEXを紹介する。
本ポリシーは,次のステップに関する情報を最大化し,適応探索アルゴリズムを実現する。
FLEXによる性能は競争力があり、計算コストも低い。
論文 参考訳(メタデータ) (2023-04-26T10:20:55Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - An end-to-end deep learning approach for extracting stochastic dynamical
systems with $\alpha$-stable L\'evy noise [5.815325960286111]
本研究では,ランダムなペアワイズデータのみから,$alpha$-stable Levyノイズによって駆動される力学系を同定する。
我々の革新は、(1)レヴィ誘導雑音のドリフト項と拡散項の両方を全ての値に対して$alpha$で学習するためのディープラーニングアプローチを設計すること、(2)小さな雑音強度を制限せずに複雑な乗法ノイズを学習すること、(3)システム同定のためのエンドツーエンドの完全なフレームワークを提案することである。
論文 参考訳(メタデータ) (2022-01-31T10:51:25Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。