論文の概要: Model-Based Reinforcement Learning with SINDy
- arxiv url: http://arxiv.org/abs/2208.14501v1
- Date: Tue, 30 Aug 2022 19:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-01 13:13:46.134129
- Title: Model-Based Reinforcement Learning with SINDy
- Title(参考訳): SINDyを用いたモデルベース強化学習
- Authors: Rushiv Arora, Bruno Castro da Silva, Eliot Moss
- Abstract要約: 強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We draw on the latest advancements in the physics community to propose a
novel method for discovering the governing non-linear dynamics of physical
systems in reinforcement learning (RL). We establish that this method is
capable of discovering the underlying dynamics using significantly fewer
trajectories (as little as one rollout with $\leq 30$ time steps) than state of
the art model learning algorithms. Further, the technique learns a model that
is accurate enough to induce near-optimal policies given significantly fewer
trajectories than those required by model-free algorithms. It brings the
benefits of model-based RL without requiring a model to be developed in
advance, for systems that have physics-based dynamics.
To establish the validity and applicability of this algorithm, we conduct
experiments on four classic control tasks. We found that an optimal policy
trained on the discovered dynamics of the underlying system can generalize
well. Further, the learned policy performs well when deployed on the actual
physical system, thus bridging the model to real system gap. We further compare
our method to state-of-the-art model-based and model-free approaches, and show
that our method requires fewer trajectories sampled on the true physical system
compared other methods. Additionally, we explored approximate dynamics models
and found that they also can perform well.
- Abstract(参考訳): 強化学習(rl)における物理システムの非線形ダイナミクスを制御する新しい手法を提案するため,物理コミュニティにおける最近の進歩について考察する。
本手法は,技術モデル学習アルゴリズムの状況よりもはるかに少ないトラジェクトリ(1ロールアウトで$\leq 30$のタイムステップ)を用いて,基礎となるダイナミクスを発見することができることを確認した。
さらに,この手法は,モデルフリーアルゴリズムで要求されるモデルよりもはるかに少ないトラジェクトリを与えられたほぼ最適ポリシーを導き出すのに十分な精度のモデルを学習する。
これは、物理ベースの力学を持つシステムに対して、事前にモデルを開発する必要がないモデルベースのRLの利点をもたらす。
本アルゴリズムの有効性と適用性を確立するため,4つの古典的制御タスクの実験を行った。
基礎となるシステムのダイナミクスを学習した最適なポリシーが、うまく一般化できることがわかりました。
さらに、学習したポリシは、実際の物理システムにデプロイするとうまく動作し、モデルと実際のシステムギャップを橋渡しする。
さらに,本手法を最先端のモデルベースおよびモデルフリーアプローチと比較し,本手法が実際の物理系上でサンプリングされる軌道を,他の手法と比較して少なくすることを示した。
さらに,近似ダイナミクスモデルについて検討し,その性能も良好であることを確認した。
関連論文リスト
- Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。
モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。
しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文 参考訳(メタデータ) (2025-03-03T04:51:40Z) - Physics-Informed Model-Based Reinforcement Learning [19.01626581411011]
従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
論文 参考訳(メタデータ) (2022-12-05T11:26:10Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Constructing Neural Network-Based Models for Simulating Dynamical
Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。
本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。
基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文 参考訳(メタデータ) (2021-11-02T10:51:42Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。