論文の概要: Model-based Reinforcement Learning with a Hamiltonian Canonical ODE
Network
- arxiv url: http://arxiv.org/abs/2211.00942v1
- Date: Wed, 2 Nov 2022 08:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:46:23.795944
- Title: Model-based Reinforcement Learning with a Hamiltonian Canonical ODE
Network
- Title(参考訳): ハミルトン標準ODEネットワークを用いたモデルベース強化学習
- Authors: Yao Feng, Yuhong Jiang, Hang Su, Dong Yan, Jun Zhu
- Abstract要約: 我々は、学習過程にハミルトン標準常微分方程式を導入し、ニューラル常微分オートエンコーダ(NODA)の新しいモデルを生み出した。
NODAは自然界をモデル化することができ、ハミルトン力学を課すのに柔軟である。
少量のサンプルを用いて、ロバストな外挿でRL剤を連続的に増強することができる。
- 参考スコア(独自算出の注目度): 31.822404891887984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning usually suffers from a high sample
complexity in training the world model, especially for the environments with
complex dynamics. To make the training for general physical environments more
efficient, we introduce Hamiltonian canonical ordinary differential equations
into the learning process, which inspires a novel model of neural ordinary
differential auto-encoder (NODA). NODA can model the physical world by nature
and is flexible to impose Hamiltonian mechanics (e.g., the dimension of the
physical equations) which can further accelerate training of the environment
models. It can consequentially empower an RL agent with the robust
extrapolation using a small amount of samples as well as the guarantee on the
physical plausibility. Theoretically, we prove that NODA has uniform bounds for
multi-step transition errors and value errors under certain conditions.
Extensive experiments show that NODA can learn the environment dynamics
effectively with a high sample efficiency, making it possible to facilitate
reinforcement learning agents at the early stage.
- Abstract(参考訳): モデルベースの強化学習は通常、特に複雑なダイナミクスを持つ環境において、世界モデルのトレーニングにおいて高いサンプル複雑さに苦しむ。
一般物理環境のトレーニングをより効率的にするために,学習プロセスにハミルトン標準常微分方程式を導入し,ニューラル常微分オートエンコーダ(NODA)の新しいモデルを構築した。
NODAは自然界をモデル化することができ、ハミルトン力学(例えば、物理方程式の次元)を課すことで環境モデルのトレーニングをさらに加速することができる。
少量のサンプルを用いたロバストな外挿によるrlエージェントのエンパワーメントと、物理的信頼性の保証とを同時に行うことができる。
理論的には,NODA は多段階遷移誤差や値誤差に対して一定の条件下で一様境界を持つことを示す。
広汎な実験により,NODAは高いサンプル効率で環境動態を効果的に学習できることが示され,早期の強化学習エージェントの促進が可能となった。
関連論文リスト
- KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics [0.0]
コルモゴロフ・アルノルドネットワーク(KAN)は多層パーセプトロン(MLP)の代替品である
この研究は、Kansをニューラル常微分方程式(ODE)フレームワークのバックボーンとして適用する。
論文 参考訳(メタデータ) (2024-07-05T00:38:49Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Effective Dynamics of Generative Adversarial Networks [16.51305515824504]
GAN(Generative Adversarial Network)は、新しいサンプルを生成するために対人訓練を使用する機械学習モデルのクラスである。
モード崩壊と呼ばれるトレーニング失敗の1つの主要な形態は、ジェネレータがターゲット確率分布におけるモードの完全な多様性を再現できないことである。
本稿では,ジェネレータニューラルネットワークを出力空間内の粒子の集合に置き換えることで,学習ダイナミクスを捕捉するGANトレーニングの効果的なモデルを提案する。
論文 参考訳(メタデータ) (2022-12-08T22:04:01Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Using scientific machine learning for experimental bifurcation analysis
of dynamic systems [2.204918347869259]
本研究は、極限サイクルを持つ物理非線形力学系に対する普遍微分方程式(UDE)モデルの訓練に焦点をあてる。
数値シミュレーションによりトレーニングデータを生成する例を考察するとともに,提案するモデリング概念を物理実験に適用する。
ニューラルネットワークとガウス過程の両方を、力学モデルと共に普遍近似器として使用し、UDEモデリングアプローチの正確性と堅牢性を批判的に評価する。
論文 参考訳(メタデータ) (2021-10-22T15:43:03Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Sobolev training of thermodynamic-informed neural networks for smoothed
elasto-plasticity models with level set hardening [0.0]
本研究では, 可視成分を用いた平滑な弾塑性モデルの学習を目的としたディープラーニングフレームワークを提案する。
収率関数を進化レベル集合として再キャストすることにより、ハミルトン・ヤコビ方程式の解を予測する機械学習手法を導入する。
論文 参考訳(メタデータ) (2020-10-15T22:43:32Z) - STEER: Simple Temporal Regularization For Neural ODEs [80.80350769936383]
トレーニング中のODEの終了時刻をランダムにサンプリングする新しい正規化手法を提案する。
提案された正規化は実装が簡単で、オーバーヘッドを無視でき、様々なタスクで有効である。
本稿では,フローの正規化,時系列モデル,画像認識などの実験を通じて,提案した正規化がトレーニング時間を大幅に短縮し,ベースラインモデルよりも性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-06-18T17:44:50Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z) - How to train your neural ODE: the world of Jacobian and kinetic
regularization [7.83405844354125]
大規模データセット上でのニューラルODEのトレーニングは、適応的数値ODEソルバがステップサイズを非常に小さな値に洗練できるようにする必要があるため、難航していない。
最適輸送と安定性の正則化の両方を理論的に基礎的に組み合わせることで、ニューラルODEは、問題をうまく解決するすべての力学から、より単純なダイナミクスを優先する。
論文 参考訳(メタデータ) (2020-02-07T14:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。