論文の概要: Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL
- arxiv url: http://arxiv.org/abs/2004.07155v1
- Date: Wed, 15 Apr 2020 15:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:56:02.722634
- Title: Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL
- Title(参考訳): モデルベースrlにおける不確実性を考慮した計画のためのブートストラップモデル学習と誤り訂正
- Authors: Alvaro Ovalle, Simon M. Lucas
- Abstract要約: 自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Having access to a forward model enables the use of planning algorithms such
as Monte Carlo Tree Search and Rolling Horizon Evolution. Where a model is
unavailable, a natural aim is to learn a model that reflects accurately the
dynamics of the environment. In many situations it might not be possible and
minimal glitches in the model may lead to poor performance and failure. This
paper explores the problem of model misspecification through uncertainty-aware
reinforcement learning agents. We propose a bootstrapped multi-headed neural
network that learns the distribution of future states and rewards. We
experiment with a number of schemes to extract the most likely predictions.
Moreover, we also introduce a global error correction filter that applies
high-level constraints guided by the context provided through the predictive
distribution. We illustrate our approach on Minipacman. The evaluation
demonstrates that when dealing with imperfect models, our methods exhibit
increased performance and stability, both in terms of model accuracy and in its
use within a planning algorithm.
- Abstract(参考訳): フォワードモデルへのアクセスは、Monte Carlo Tree SearchやRolling Horizon Evolutionといった計画アルゴリズムの利用を可能にする。
モデルが利用できない場合、自然な目的は環境のダイナミクスを正確に反映したモデルを学ぶことである。
多くの状況では不可能であり、モデル内の最小限の不具合は、パフォーマンスと失敗につながる可能性がある。
本稿では,不確実性に着目した強化学習エージェントによるモデル誤特定の問題について検討する。
本稿では,将来状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
我々は、最も可能性の高い予測を抽出するために、いくつかのスキームを実験する。
さらに,予測分布を通して提供される文脈に導かれる高次制約を適用した大域的誤り訂正フィルタも導入する。
私たちはminipacmanのアプローチを説明します。
提案手法は,不完全なモデルを扱う場合,モデル精度と計画アルゴリズム内での使用の両方において,性能と安定性が向上することを示す。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。