論文の概要: Physics-Informed Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.02179v4
- Date: Sun, 14 May 2023 11:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 00:04:10.455895
- Title: Physics-Informed Model-Based Reinforcement Learning
- Title(参考訳): 物理インフォームドモデルに基づく強化学習
- Authors: Adithya Ramesh, Balaraman Ravindran
- Abstract要約: 従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
- 参考スコア(独自算出の注目度): 19.01626581411011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply reinforcement learning (RL) to robotics tasks. One of the drawbacks
of traditional RL algorithms has been their poor sample efficiency. One
approach to improve the sample efficiency is model-based RL. In our model-based
RL algorithm, we learn a model of the environment, essentially its transition
dynamics and reward function, use it to generate imaginary trajectories and
backpropagate through them to update the policy, exploiting the
differentiability of the model. Intuitively, learning more accurate models
should lead to better model-based RL performance. Recently, there has been
growing interest in developing better deep neural network based dynamics models
for physical systems, by utilizing the structure of the underlying physics. We
focus on robotic systems undergoing rigid body motion without contacts. We
compare two versions of our model-based RL algorithm, one which uses a standard
deep neural network based dynamics model and the other which uses a much more
accurate, physics-informed neural network based dynamics model. We show that,
in model-based RL, model accuracy mainly matters in environments that are
sensitive to initial conditions, where numerical errors accumulate fast. In
these environments, the physics-informed version of our algorithm achieves
significantly better average-return and sample efficiency. In environments that
are not sensitive to initial conditions, both versions of our algorithm achieve
similar average-return, while the physics-informed version achieves better
sample efficiency. We also show that, in challenging environments,
physics-informed model-based RL achieves better average-return than
state-of-the-art model-free RL algorithms such as Soft Actor-Critic, as it
computes the policy-gradient analytically, while the latter estimates it
through sampling.
- Abstract(参考訳): ロボットのタスクに強化学習(RL)を適用する。
従来のRLアルゴリズムの欠点の1つは、サンプル効率が悪いことである。
サンプル効率を改善する1つのアプローチはモデルベースRLである。
モデルに基づくRLアルゴリズムでは、その遷移力学と報酬関数のモデルを学び、それを仮想軌道生成に利用し、それらをバックプロパゲーションしてポリシーを更新し、モデルの微分可能性を活用する。
直感的には、より正確なモデルを学ぶことで、モデルベースのrlパフォーマンスが向上するはずだ。
近年,基礎となる物理構造を利用して,より深いニューラルネットワークに基づく物理系の力学モデル開発への関心が高まっている。
接触なしで剛体運動を行うロボットシステムに焦点を当てる。
モデルベースRLアルゴリズムの2つのバージョンを比較した。1つは標準のディープニューラルネットワークベースのダイナミックスモデル、もう1つはより正確な物理インフォームドニューラルネットワークベースのダイナミックスモデルである。
モデルベースRLでは,数値誤差が急速に蓄積する初期条件に敏感な環境において,モデル精度が重要となることを示す。
これらの環境では、物理に変形したアルゴリズムは平均回帰とサンプル効率が大幅に向上する。
初期条件に敏感でない環境では、アルゴリズムのどちらのバージョンも同様の平均回帰を達成し、物理インフォームされたバージョンはより優れたサンプル効率を達成する。
また, 困難な環境下では, 物理モデルに基づくrlは, ソフトアクタ-クリティックのような最先端のモデルフリーなrlアルゴリズムよりも, 平均回帰性能が向上することを示した。
関連論文リスト
- Learning Controllable Adaptive Simulation for Multi-resolution Physics [86.8993558124143]
完全深層学習に基づくサロゲートモデルとして,LAMP(Learning Controllable Adaptive Simulation for Multi- resolution Physics)を導入した。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPが最先端のディープラーニングサロゲートモデルより優れており,長期予測誤差を改善するために,適応的なトレードオフ計算が可能であることを実証した。
論文 参考訳(メタデータ) (2023-05-01T23:20:27Z) - MINN: Learning the dynamics of differential-algebraic equations and
application to battery modeling [3.900623554490941]
我々は、モデル統合ニューラルネットワーク(MINN)を生成するための新しいアーキテクチャを提案する。
MINNは、システムの物理に基づく力学の学習レベルとの統合を可能にする。
提案したニューラルネットワークアーキテクチャを用いてリチウムイオン電池の電気化学的ダイナミクスをモデル化する。
論文 参考訳(メタデータ) (2023-04-27T09:11:40Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Model-Based Reinforcement Learning with SINDy [0.0]
強化学習(RL)における物理系の非線形力学を規定する新しい手法を提案する。
本手法は,技術モデル学習アルゴリズムの状態よりもはるかに少ないトラジェクトリを用いて,基礎となるダイナミクスを発見することができることを確認した。
論文 参考訳(メタデータ) (2022-08-30T19:03:48Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。