論文の概要: Dynamic Horizon Value Estimation for Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.09593v1
- Date: Mon, 21 Sep 2020 03:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:05:27.237632
- Title: Dynamic Horizon Value Estimation for Model-based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のための動的水平値推定
- Authors: Junjie Wang, Qichao Zhang, Dongbin Zhao, Mengchen Zhao, Jianye Hao
- Abstract要約: 本研究では,動的水平モデルに基づく値展開手法を提案する。
視覚データノベルティ検出に応用可能な再構成技術に着想を得て,再構成モジュールを用いた世界モデルを用いて画像特徴抽出を行う。
いくつかのベンチマーク視覚制御タスクにおいて、実験結果からDMVEはより効果的で正確な値推定が可能であることが示されている。
- 参考スコア(独自算出の注目度): 29.50362712407619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing model-based value expansion methods typically leverage a world model
for value estimation with a fixed rollout horizon to assist policy learning.
However, the fixed rollout with an inaccurate model has a potential to harm the
learning process. In this paper, we investigate the idea of using the model
knowledge for value expansion adaptively. We propose a novel method called
Dynamic-horizon Model-based Value Expansion (DMVE) to adjust the world model
usage with different rollout horizons. Inspired by reconstruction-based
techniques that can be applied for visual data novelty detection, we utilize a
world model with a reconstruction module for image feature extraction, in order
to acquire more precise value estimation. The raw and the reconstructed images
are both used to determine the appropriate horizon for adaptive value
expansion. On several benchmark visual control tasks, experimental results show
that DMVE outperforms all baselines in sample efficiency and final performance,
indicating that DMVE can achieve more effective and accurate value estimation
than state-of-the-art model-based methods.
- Abstract(参考訳): 既存のモデルに基づく価値拡大手法は、典型的には、政策学習を支援するために固定ロールアウト地平線を用いた価値推定のために世界モデルを利用する。
しかし、不正確なモデルによる固定ロールアウトは、学習プロセスに害を与える可能性がある。
本稿では,モデル知識を価値展開に適応的に利用するアイデアについて検討する。
本研究では,動的水平モデルに基づく値展開(DMVE)と呼ばれる新しい手法を提案する。
視覚データノベルティ検出に応用可能な再構成技術に着想を得て,画像特徴抽出のための再構成モジュールを備えた世界モデルを用いて,より正確な値推定を行う。
原画像と再構成画像の両方を用いて、適応値展開に適した地平線を決定する。
いくつかのベンチマーク視覚制御タスクにおいて、DMVEはサンプル効率と最終的な性能において全てのベースラインより優れており、DMVEは最先端のモデルベース手法よりも効率的で正確な値推定が可能であることを示す実験結果が得られた。
関連論文リスト
- Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Model-based Reinforcement Learning with Multi-step Plan Value Estimation [4.158979444110977]
モデルベースRLのマルチステップ動作を置き換えるためのマルチステップ計画を導入する。
新しいモデルベース強化学習アルゴリズムMPPVEは、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
論文 参考訳(メタデータ) (2022-09-12T18:22:11Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。