論文の概要: ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
- arxiv url: http://arxiv.org/abs/2309.14078v1
- Date: Mon, 25 Sep 2023 12:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:50:41.479389
- Title: ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
- Title(参考訳): ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
- Authors: Xuanle Zhao, Duzhen Zhang, Liyuan Han, Tielin Zhang, Bo Xu
- Abstract要約: 我々は,POMDPを解くために,新しいODEベースのリカレントモデルとモデルレス強化学習フレームワークを組み合わせる。
様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。
提案手法は,不規則にサンプリングされた時系列をモデル化するODEの能力のため,不規則な観測に対して頑健であることを示す。
- 参考スコア(独自算出の注目度): 15.030970899252601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural ordinary differential equations (ODEs) are widely recognized as the
standard for modeling physical mechanisms, which help to perform approximate
inference in unknown physical or biological environments. In partially
observable (PO) environments, how to infer unseen information from raw
observations puzzled the agents. By using a recurrent policy with a compact
context, context-based reinforcement learning provides a flexible way to
extract unobservable information from historical transitions. To help the agent
extract more dynamics-related information, we present a novel ODE-based
recurrent model combines with model-free reinforcement learning (RL) framework
to solve partially observable Markov decision processes (POMDPs). We
experimentally demonstrate the efficacy of our methods across various PO
continuous control and meta-RL tasks. Furthermore, our experiments illustrate
that our method is robust against irregular observations, owing to the ability
of ODEs to model irregularly-sampled time series.
- Abstract(参考訳): ニューラル常微分方程式(ODE)は、未知の物理的または生物学的環境において近似推論を行うのに役立つ物理機構をモデル化するための標準として広く認識されている。
部分的に観測可能な(PO)環境では、生の観測から見えない情報を推測する方法がエージェントを困惑させた。
コンテクストに基づく強化学習は, コンテクストがコンパクトなリカレントポリシを用いることで, 歴史的遷移から観測不可能な情報を抽出する柔軟な方法を提供する。
エージェントがよりダイナミックな情報を引き出すのを助けるために,新しいODEベースのリカレントモデルとモデルレス強化学習(RL)フレームワークを組み合わせて,部分的に観測可能なマルコフ決定プロセス(POMDP)を解く。
様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。
さらに,本手法は不規則にサンプリングされた時系列をモデル化できるため,不規則な観測に対して頑健であることを示す。
関連論文リスト
- On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Free-Form Variational Inference for Gaussian Process State-Space Models [21.644570034208506]
ベイズGPSSMにおける新しい推論法を提案する。
本手法はハミルトニアンモンテカルロの誘導による自由形式変分推論に基づく。
提案手法は, 競合する手法よりも, 遷移力学や潜伏状態をより正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:34:16Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Using scientific machine learning for experimental bifurcation analysis
of dynamic systems [2.204918347869259]
本研究は、極限サイクルを持つ物理非線形力学系に対する普遍微分方程式(UDE)モデルの訓練に焦点をあてる。
数値シミュレーションによりトレーニングデータを生成する例を考察するとともに,提案するモデリング概念を物理実験に適用する。
ニューラルネットワークとガウス過程の両方を、力学モデルと共に普遍近似器として使用し、UDEモデリングアプローチの正確性と堅牢性を批判的に評価する。
論文 参考訳(メタデータ) (2021-10-22T15:43:03Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
論文 参考訳(メタデータ) (2020-06-29T17:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。