論文の概要: Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning
- arxiv url: http://arxiv.org/abs/2105.05716v6
- Date: Tue, 30 Jul 2024 14:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 22:39:37.230693
- Title: Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning
- Title(参考訳): イマジネーションを実践する:モデルに基づく強化学習における想像軌道を信頼する時
- Authors: Adrian Remonda, Eduardo Veas, Granit Luzhnica,
- Abstract要約: モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 1.26990070983988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) aims to learn model(s) of the environment dynamics that can predict the outcome of its actions. Forward application of the model yields so called imagined trajectories (sequences of action, predicted state-reward) used to optimize the set of candidate actions that maximize expected reward. The outcome, an ideal imagined trajectory or plan, is imperfect and typically MBRL relies on model predictive control (MPC) to overcome this by continuously re-planning from scratch, incurring thus major computational cost and increasing complexity in tasks with longer receding horizon. We propose uncertainty estimation methods for online evaluation of imagined trajectories to assess whether further planned actions can be trusted to deliver acceptable reward. These methods include comparing the error after performing the last action with the standard expected error and using model uncertainty to assess the deviation from expected outcomes. Additionally, we introduce methods that exploit the forward propagation of the dynamics model to evaluate if the remainder of the plan aligns with expected results and assess the remainder of the plan in terms of the expected reward. Our experiments demonstrate the effectiveness of the proposed uncertainty estimation methods by applying them to avoid unnecessary trajectory replanning in a shooting MBRL setting. Results highlight significant reduction on computational costs without sacrificing performance.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
モデルのフォワード適用は、期待される報酬を最大化する候補アクションのセットを最適化するために使用される想像軌道(行動系列、予測状態逆)と呼ばれるものをもたらす。
MBRLはモデル予測制御(MPC)に頼り、スクラッチから連続的に再計画し、計算コストが大幅に増加し、より長い水平線でタスクの複雑さが増大することでこれを克服する。
提案手法は,今後の計画行動が信頼でき,許容できる報酬を得られるかどうかを評価するための,仮想軌道のオンライン評価のための不確実性評価手法である。
これらの手法には、最終動作の実行後のエラーと標準予測エラーを比較し、モデル不確実性を用いて予測結果から逸脱を評価することが含まれる。
さらに,計画の残りが期待結果と一致しているかを評価するために,ダイナミックスモデルの前方伝播を利用した手法を導入し,その効果を期待報酬の観点から評価する。
本実験では,MBRL設定における不確実性評価手法の有効性を,不必要な軌道変更を避けるために適用した。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
関連論文リスト
- Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。
まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。
基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文 参考訳(メタデータ) (2024-09-16T09:03:28Z) - Conformalized Selective Regression [2.3964255330849356]
共形予測を利用した選択回帰手法を提案する。
提案手法は, 選択回帰に適合し, 複数の最先端ベースラインに対して有利であることを示す。
論文 参考訳(メタデータ) (2024-02-26T04:43:50Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Scenario-based Evaluation of Prediction Models for Automated Vehicles [0.0]
自動運転車の安全性評価における評価の実践はシナリオベースで実施されるべきである。
オープンモーションデータセットの軌跡を捉えた動きの種類に応じて分類する。
その結果, 共通評価手法は不十分であり, モデルが動作するアプリケーションに応じて評価を行う必要があることがわかった。
論文 参考訳(メタデータ) (2022-10-11T09:45:43Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。