Fugu-MT 論文翻訳(概要): Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization

論文の概要: Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization

arxiv url: http://arxiv.org/abs/2104.13877v1
Date: Wed, 28 Apr 2021 16:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 13:02:32.740920
Title: Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization
Title（参考訳）: オフライン政策評価と最適化のための自己回帰ダイナミクスモデル
Authors: Michael R. Zhang, Tom Le Paine, Ofir Nachum, Cosmin Paduraru, George Tucker, Ziyu Wang, Mohammad Norouzi
Abstract要約: 表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
参考スコア（独自算出の注目度）: 60.73540999409032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Standard dynamics models for continuous control make use of feedforward computation to predict the conditional distribution of next state and reward given current state and action using a multivariate Gaussian with a diagonal covariance structure. This modeling choice assumes that different dimensions of the next state and reward are conditionally independent given the current state and action and may be driven by the fact that fully observable physics-based simulation environments entail deterministic transition dynamics. In this paper, we challenge this conditional independence assumption and propose a family of expressive autoregressive dynamics models that generate different dimensions of the next state and reward sequentially conditioned on previous dimensions. We demonstrate that autoregressive dynamics models indeed outperform standard feedforward models in log-likelihood on heldout transitions. Furthermore, we compare different model-based and model-free off-policy evaluation (OPE) methods on RL Unplugged, a suite of offline MuJoCo datasets, and find that autoregressive dynamics models consistently outperform all baselines, achieving a new state-of-the-art. Finally, we show that autoregressive dynamics models are useful for offline policy optimization by serving as a way to enrich the replay buffer through data augmentation and improving performance using model-based planning.
Abstract（参考訳）: 連続制御のための標準力学モデルはフィードフォワード計算を用いて次の状態の条件分布を予測し、対角共分散構造を持つ多変量ガウス方程式を用いて与えられた状態と作用を与える。このモデリングの選択は、次の状態と報酬の異なる次元が現在の状態と作用から条件的に独立であると仮定し、完全に観測可能な物理ベースのシミュレーション環境が決定論的遷移ダイナミクスを伴うという事実によって駆動される可能性がある。本稿では,この条件付き独立性仮定に挑戦し,次状態の異なる次元を生成し,前次元に順次条件付きで報酬を与える表現的自己回帰力学モデル群を提案する。自己回帰力学モデルは、保留遷移におけるログ様の標準フィードフォワードモデルよりも優れていることを示す。さらに,オフラインのmujocoデータセットスイートであるrl unplugged上で,異なるモデルベースとモデルフリーのオフポリシー評価(ope)手法を比較して,自己回帰的ダイナミクスモデルがすべてのベースラインを一貫して上回っており,新たな最先端を実現することを確認した。最後に,データ拡張による再生バッファの強化とモデルベースプランニングによる性能向上により,自動回帰力学モデルはオフラインポリシ最適化に有用であることを示す。

関連論文リスト

Diffusion Dynamics Models with Generative State Estimation for Cloth Manipulation [39.72581795761555]
本稿では,知覚と動的モデリングの両方に対する拡散に基づく生成手法を提案する。標準布メッシュと動的モデリングを用いて, 疎RGB-D観測から全布状態の再構築を行った。我々のフレームワークは実際のロボットシステム上で布の折り畳みをうまく実行します。
論文参考訳（メタデータ） (2025-03-15T05:34:26Z)
Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文参考訳（メタデータ） (2024-10-08T01:27:46Z)
Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文参考訳（メタデータ） (2024-09-05T18:14:22Z)
Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文参考訳（メタデータ） (2024-08-29T15:55:27Z)
Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文参考訳（メタデータ） (2024-05-30T03:57:29Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文参考訳（メタデータ） (2022-10-13T03:14:36Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Improving Sequential Latent Variable Models with Autoregressive Flows [30.053464816814348]
本稿では,自己回帰正規化フローに基づくシーケンスモデリングの改良手法を提案する。結果は3つのベンチマークビデオデータセットで示され、自動回帰フローベースのダイナミックスがログライクなパフォーマンスを改善する。
論文参考訳（メタデータ） (2020-10-07T05:14:37Z)
Reinforcement Learning based dynamic weighing of Ensemble Models for Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文参考訳（メタデータ） (2020-08-20T10:40:42Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。