論文の概要: Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control
- arxiv url: http://arxiv.org/abs/2108.00128v1
- Date: Sat, 31 Jul 2021 02:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 05:17:20.528548
- Title: Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control
- Title(参考訳): 物理インフォームドダイナスタイルモデルに基づく動的制御のための深部強化学習
- Authors: Xin-Yang Liu and Jian-Xun Wang
- Abstract要約: 本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) is believed to have much higher
sample efficiency compared to model-free algorithms by learning a predictive
model of the environment. However, the performance of MBRL highly relies on the
quality of the learned model, which is usually built in a black-box manner and
may have poor predictive accuracy outside of the data distribution. The
deficiencies of the learned model may prevent the policy from being fully
optimized. Although some uncertainty analysis-based remedies have been proposed
to alleviate this issue, model bias still poses a great challenge for MBRL. In
this work, we propose to leverage the prior knowledge of underlying physics of
the environment, where the governing laws are (partially) known. In particular,
we developed a physics-informed MBRL framework, where governing equations and
physical constraints are utilized to inform the model learning and policy
search. By incorporating the prior information of the environment, the quality
of the learned model can be notably improved, while the required interactions
with the environment are significantly reduced, leading to better sample
efficiency and learning performance. The effectiveness and merit have been
demonstrated over a handful of classic control problems, where the environments
are governed by canonical ordinary/partial differential equations.
- Abstract(参考訳): モデルベース強化学習(mbrl)は,環境の予測モデルを学ぶことによって,モデルフリーなアルゴリズムよりもはるかに高いサンプル効率を持つと考えられる。
しかし、MBRLの性能は学習モデルの品質に大きく依存しており、通常はブラックボックス方式で構築され、データ分布以外の予測精度が劣る可能性がある。
学習モデルの欠陥は、ポリシーが完全に最適化されるのを防ぐ可能性がある。
この問題を緩和するためにいくつかの不確実性分析に基づく対策が提案されているが、モデルバイアスは依然としてMBRLにとって大きな課題である。
本研究では,支配法則が(部分的に)知られている環境の物理の先行知識を活用することを提案する。
特に,モデル学習と政策探索に制御方程式と物理的制約を活用できる,物理に変形したmbrlフレームワークを開発した。
環境の事前情報を組み込むことにより,学習モデルの品質が著しく向上し,必要な環境との相互作用が大幅に低減され,サンプル効率と学習性能が向上する。
環境は標準常微分方程式(英語版)と部分微分方程式(英語版)によって制御される。
関連論文リスト
- HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Physics-Informed Model-Based Reinforcement Learning [19.01626581411011]
従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
論文 参考訳(メタデータ) (2022-12-05T11:26:10Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Should Models Be Accurate? [14.044354912031864]
予測設定においてダイナスタイルの計画に焦点をあてる。
本研究では,学習者に対して,環境モデリングの精度ではなく,学習者にとって有用性を重視した学習モデルのためのメタ学習アルゴリズムを提案する。
実験の結果,本アルゴリズムは非定常性に関するドメイン固有知識を用いて構築した精度の高いモデルよりも高速な学習を可能にすることがわかった。
論文 参考訳(メタデータ) (2022-05-22T04:23:54Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。