論文の概要: Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs
- arxiv url: http://arxiv.org/abs/2006.16210v2
- Date: Sun, 25 Oct 2020 05:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:55:53.872319
- Title: Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs
- Title(参考訳): ニューラルネットワークを用いたセミマルコフ決定過程のモデルベース強化学習
- Authors: Jianzhun Du, Joseph Futoma, Finale Doshi-Velez
- Abstract要約: ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
- 参考スコア(独自算出の注目度): 30.36381338938319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present two elegant solutions for modeling continuous-time dynamics, in a
novel model-based reinforcement learning (RL) framework for semi-Markov
decision processes (SMDPs), using neural ordinary differential equations
(ODEs). Our models accurately characterize continuous-time dynamics and enable
us to develop high-performing policies using a small amount of data. We also
develop a model-based approach for optimizing time schedules to reduce
interaction rates with the environment while maintaining the near-optimal
performance, which is not possible for model-free methods. We experimentally
demonstrate the efficacy of our methods across various continuous-time domains.
- Abstract(参考訳): 本稿では,ニューラル常微分方程式(ODE)を用いた半マルコフ決定過程(SMDP)のためのモデルベース強化学習(RL)フレームワークにおいて,連続時間力学をモデル化するための2つのエレガントな解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
また,モデルのない手法では不可能な準最適性能を維持しながら,時間スケジュールを最適化し,環境との相互作用率を低減するためのモデルベースアプローチも開発している。
各種連続時間領域における手法の有効性を実験的に実証した。
関連論文リスト
- Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Learning Space-Time Continuous Neural PDEs from Partially Observed
States [13.01244901400942]
格子独立モデル学習偏微分方程式(PDE)を雑音および不規則格子上の部分的な観測から導入する。
本稿では、効率的な確率的フレームワークとデータ効率とグリッド独立性を改善するための新しい設計エンコーダを備えた時空間連続型ニューラルネットワークPDEモデルを提案する。
論文 参考訳(メタデータ) (2023-07-09T06:53:59Z) - Learning PDE Solution Operator for Continuous Modeling of Time-Series [1.39661494747879]
この研究は、動的モデリング能力を改善する偏微分方程式(PDE)に基づくフレームワークを提案する。
時間的離散化の反復的操作や特定のグリッドを必要とせずに連続的に処理できるニューラル演算子を提案する。
我々のフレームワークは、現実世界のアプリケーションに容易に適用可能な、ニューラルネットワークの継続的な表現のための新しい方法を開く。
論文 参考訳(メタデータ) (2023-02-02T03:47:52Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Homotopy-based training of NeuralODEs for accurate dynamics discovery [0.0]
我々は,同期とホモトピー最適化に基づくニューラルノードの新しいトレーニング手法を開発した。
モデルダイナミクスとトレーニングデータとを同期させることで、もともと不規則なロスランドスケープを味わうことを示す。
本手法は,トレーニングエポックの半数以下を必要としながら,競争力やより良いトレーニング損失を達成する。
論文 参考訳(メタデータ) (2022-10-04T06:32:45Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in
Continuous Control [0.0]
本稿では,ニューラル常微分方程式の枠組みに制御を組み込むことにより,システムの基盤となる力学を捉える新しい手法を提案する。
以上の結果から,アクター批判強化学習アルゴリズムと組み合わせた単純なDyNODEアーキテクチャが,標準ニューラルネットワークより優れていることが示唆された。
論文 参考訳(メタデータ) (2020-09-09T12:56:58Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。