論文の概要: Acting upon Imagination: when to trust imagined trajectories in model
based reinforcement learning
- arxiv url: http://arxiv.org/abs/2105.05716v1
- Date: Wed, 12 May 2021 15:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 17:26:50.936234
- Title: Acting upon Imagination: when to trust imagined trajectories in model
based reinforcement learning
- Title(参考訳): イマジネーションを実践する:モデルに基づく強化学習における想像軌道の信頼
- Authors: Adrian Remonda, Eduardo Veas, Granit Luzhnica
- Abstract要約: 本論文では, 受諾可能な報酬を維持しながら, 将来, 想像された軌道をどの程度信頼できるかを検討する。
その結果,環境によっては,イマジネーションに作用することで,少なくとも20%,最大80%の計算を削減できることがわかった。
- 参考スコア(独自算出の注目度): 4.318555434063274
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Model based reinforcement learning (MBRL) uses an imperfect model of the
world to imagine trajectories of future states and plan the best actions to
maximize a reward function. These trajectories are imperfect and MBRL attempts
to overcome this by relying on model predictive control (MPC) to continuously
re-imagine trajectories from scratch. Such re-generation of imagined
trajectories carries the major computational cost and increasing complexity in
tasks with longer receding horizon. This paper aims to investigate how far in
the future the imagined trajectories can be relied upon while still maintaining
acceptable reward. Firstly, an error analysis is presented for systematic
skipping recalculations for varying number of consecutive steps.% in several
challenging benchmark control tasks. Secondly, we propose two methods offering
when to trust and act upon imagined trajectories, looking at recent errors with
respect to expectations, or comparing the confidence in an action imagined
against its execution. Thirdly, we evaluate the effects of acting upon
imagination while training the model of the world. Results show that acting
upon imagination can reduce calculations by at least 20% and up to 80%,
depending on the environment, while retaining acceptable reward.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、世界の不完全なモデルを用いて将来の状態の軌跡を想像し、報酬関数を最大化するために最良の行動を計画する。
これらの軌道は不完全であり、MBRLはモデル予測制御(MPC)に頼って軌道をゼロから連続的に再現することでこれを克服しようとする。
このような想像された軌道の再生成は、大きな計算コストと、長い後退地平線を持つタスクの複雑さの増加をもたらす。
本論文は, 将来, 想定される軌道が, 許容される報酬を維持しつつ, どこまで信頼できるかを検討することを目的とする。
まず,いくつかの難解なベンチマーク制御タスクにおいて,連続するステップ数に対して系統的スキップ再計算を行うための誤り解析を行った。
第2に,想定された軌道を信頼し行動するタイミング,期待に対する最近の誤りを見る方法,あるいはその実行に対して想定される行動の信頼性を比較する方法を提案する。
第3に,世界のモデルを訓練しながら,想像力に及ぼす行動の影響を評価する。
その結果、想像力に基づく行動は、許容される報酬を保ちながら、環境に応じて計算を少なくとも20%、最大80%削減できることが示された。
関連論文リスト
- Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。
まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。
基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文 参考訳(メタデータ) (2024-09-16T09:03:28Z) - Conformalized Selective Regression [2.3964255330849356]
共形予測を利用した選択回帰手法を提案する。
提案手法は, 選択回帰に適合し, 複数の最先端ベースラインに対して有利であることを示す。
論文 参考訳(メタデータ) (2024-02-26T04:43:50Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Scenario-based Evaluation of Prediction Models for Automated Vehicles [0.0]
自動運転車の安全性評価における評価の実践はシナリオベースで実施されるべきである。
オープンモーションデータセットの軌跡を捉えた動きの種類に応じて分類する。
その結果, 共通評価手法は不十分であり, モデルが動作するアプリケーションに応じて評価を行う必要があることがわかった。
論文 参考訳(メタデータ) (2022-10-11T09:45:43Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。