論文の概要: Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization
- arxiv url: http://arxiv.org/abs/2104.13877v1
- Date: Wed, 28 Apr 2021 16:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 13:02:32.740920
- Title: Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization
- Title(参考訳): オフライン政策評価と最適化のための自己回帰ダイナミクスモデル
- Authors: Michael R. Zhang, Tom Le Paine, Ofir Nachum, Cosmin Paduraru, George
Tucker, Ziyu Wang, Mohammad Norouzi
- Abstract要約: 表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
- 参考スコア(独自算出の注目度): 60.73540999409032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard dynamics models for continuous control make use of feedforward
computation to predict the conditional distribution of next state and reward
given current state and action using a multivariate Gaussian with a diagonal
covariance structure. This modeling choice assumes that different dimensions of
the next state and reward are conditionally independent given the current state
and action and may be driven by the fact that fully observable physics-based
simulation environments entail deterministic transition dynamics. In this
paper, we challenge this conditional independence assumption and propose a
family of expressive autoregressive dynamics models that generate different
dimensions of the next state and reward sequentially conditioned on previous
dimensions. We demonstrate that autoregressive dynamics models indeed
outperform standard feedforward models in log-likelihood on heldout
transitions. Furthermore, we compare different model-based and model-free
off-policy evaluation (OPE) methods on RL Unplugged, a suite of offline MuJoCo
datasets, and find that autoregressive dynamics models consistently outperform
all baselines, achieving a new state-of-the-art. Finally, we show that
autoregressive dynamics models are useful for offline policy optimization by
serving as a way to enrich the replay buffer through data augmentation and
improving performance using model-based planning.
- Abstract(参考訳): 連続制御のための標準力学モデルはフィードフォワード計算を用いて次の状態の条件分布を予測し、対角共分散構造を持つ多変量ガウス方程式を用いて与えられた状態と作用を与える。
このモデリングの選択は、次の状態と報酬の異なる次元が現在の状態と作用から条件的に独立であると仮定し、完全に観測可能な物理ベースのシミュレーション環境が決定論的遷移ダイナミクスを伴うという事実によって駆動される可能性がある。
本稿では,この条件付き独立性仮定に挑戦し,次状態の異なる次元を生成し,前次元に順次条件付きで報酬を与える表現的自己回帰力学モデル群を提案する。
自己回帰力学モデルは、保留遷移におけるログ様の標準フィードフォワードモデルよりも優れていることを示す。
さらに,オフラインのmujocoデータセットスイートであるrl unplugged上で,異なるモデルベースとモデルフリーのオフポリシー評価(ope)手法を比較して,自己回帰的ダイナミクスモデルがすべてのベースラインを一貫して上回っており,新たな最先端を実現することを確認した。
最後に,データ拡張による再生バッファの強化とモデルベースプランニングによる性能向上により,自動回帰力学モデルはオフラインポリシ最適化に有用であることを示す。
関連論文リスト
- Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。
以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。
本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文 参考訳(メタデータ) (2024-08-29T15:55:27Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Improving Sequential Latent Variable Models with Autoregressive Flows [30.053464816814348]
本稿では,自己回帰正規化フローに基づくシーケンスモデリングの改良手法を提案する。
結果は3つのベンチマークビデオデータセットで示され、自動回帰フローベースのダイナミックスがログライクなパフォーマンスを改善する。
論文 参考訳(メタデータ) (2020-10-07T05:14:37Z) - Reinforcement Learning based dynamic weighing of Ensemble Models for
Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。
アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。
この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文 参考訳(メタデータ) (2020-08-20T10:40:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。