論文の概要: Physics-Informed Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.02179v1
- Date: Mon, 5 Dec 2022 11:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 19:23:27.849045
- Title: Physics-Informed Model-Based Reinforcement Learning
- Title(参考訳): 物理インフォームドモデルに基づく強化学習
- Authors: Adithya Ramesh, Balaraman Ravindran
- Abstract要約: 従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
物理インフォームドモデルベースRLは,学習に多くのサンプルが必要な環境において,モデルフリーRLよりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 19.01626581411011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply reinforcement learning (RL) to robotics. One of the drawbacks of
traditional RL algorithms has been their poor sample efficiency. One approach
to improve it is model-based RL. We learn a model of the environment,
essentially its dynamics and reward function, use it to generate imaginary
trajectories and backpropagate through them to update the policy, exploiting
the differentiability of the model. Intuitively, learning more accurate models
should lead to better performance. Recently, there has been growing interest in
developing better deep neural network based dynamics models for physical
systems, through better inductive biases. We focus on robotic systems
undergoing rigid body motion. We compare two versions of our model-based RL
algorithm, one which uses a standard deep neural network based dynamics model
and the other which uses a much more accurate, physics-informed neural network
based dynamics model. We show that, in environments that are not sensitive to
initial conditions, model accuracy matters only to some extent, as numerical
errors accumulate slowly. In these environments, both versions achieve similar
average-return, while the physics-informed version achieves better sample
efficiency. We show that, in environments that are sensitive to initial
conditions, model accuracy matters a lot, as numerical errors accumulate fast.
In these environments, the physics-informed version achieves significantly
better average-return and sample efficiency. We show that, in challenging
environments, where we need a lot of samples to learn, physics-informed
model-based RL can achieve better asymptotic performance than model-free RL, by
generating accurate imaginary data, which allows it to perform many more policy
updates. In these environments, our physics-informed model-based RL approach
achieves better average-return than Soft Actor-Critic, a SOTA model-free RL
algorithm.
- Abstract(参考訳): ロボット工学に強化学習(RL)を適用する。
従来のRLアルゴリズムの欠点の1つは、サンプル効率が悪いことである。
改善の1つのアプローチはモデルベースのRLである。
私たちは、本質的にそのダイナミクスと報酬関数である環境のモデルを学び、想像上の軌道を生成し、それらをバックプロパゲートしてポリシーを更新し、モデルの差別化可能性を利用する。
直感的には、より正確なモデルを学ぶことは、より良いパフォーマンスをもたらすでしょう。
近年、インダクティブバイアスの改善を通じて、物理システムのためのディープニューラルネットワークベースのダイナミクスモデルの開発への関心が高まっている。
我々は、剛体運動を行うロボットシステムに焦点を当てる。
モデルベースRLアルゴリズムの2つのバージョンを比較した。1つは標準のディープニューラルネットワークベースのダイナミックスモデル、もう1つはより正確な物理インフォームドニューラルネットワークベースのダイナミックスモデルである。
初期条件に敏感でない環境では,数値誤差が緩やかに蓄積されるため,モデルの精度はある程度しか重要でないことを示す。
これらの環境では、どちらのバージョンも同様の平均回帰を達成し、物理インフォームされたバージョンはより優れたサンプル効率を達成する。
初期条件に敏感な環境では,数値誤差の蓄積が早いため,モデルの精度が重要となる。
これらの環境では、物理学インフォームドバージョンは平均回帰とサンプル効率を大幅に改善する。
物理インフォームドモデルベースRLは,学習に多くのサンプルを必要とする困難な環境において,正確な虚構データを生成することにより,モデルフリーRLよりも漸近的な性能を達成できることが示される。
これらの環境では、我々の物理インフォームドモデルベースRLアプローチは、SOTAモデルフリーRLアルゴリズムであるSoft Actor-Criticよりも良い平均回帰を実現する。
関連論文リスト
- Learning Controllable Adaptive Simulation for Multi-resolution Physics [86.8993558124143]
完全深層学習に基づくサロゲートモデルとして,LAMP(Learning Controllable Adaptive Simulation for Multi- resolution Physics)を導入した。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPが最先端のディープラーニングサロゲートモデルより優れており,長期予測誤差を改善するために,適応的なトレードオフ計算が可能であることを実証した。
論文 参考訳(メタデータ) (2023-05-01T23:20:27Z) - MINN: Learning the dynamics of differential-algebraic equations and
application to battery modeling [3.900623554490941]
我々は、モデル統合ニューラルネットワーク(MINN)を生成するための新しいアーキテクチャを提案する。
MINNは、システムの物理に基づく力学の学習レベルとの統合を可能にする。
提案したニューラルネットワークアーキテクチャを用いてリチウムイオン電池の電気化学的ダイナミクスをモデル化する。
論文 参考訳(メタデータ) (2023-04-27T09:11:40Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。