Fugu-MT 論文翻訳(概要): Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning

論文の概要: Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning

arxiv url: http://arxiv.org/abs/2105.05716v1
Date: Wed, 12 May 2021 15:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-13 17:26:50.936234
Title: Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning
Title（参考訳）: イマジネーションを実践する:モデルに基づく強化学習における想像軌道の信頼
Authors: Adrian Remonda, Eduardo Veas, Granit Luzhnica
Abstract要約: 本論文では, 受諾可能な報酬を維持しながら, 将来, 想像された軌道をどの程度信頼できるかを検討する。その結果,環境によっては,イマジネーションに作用することで,少なくとも20%,最大80%の計算を削減できることがわかった。
参考スコア（独自算出の注目度）: 4.318555434063274
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Model based reinforcement learning (MBRL) uses an imperfect model of the world to imagine trajectories of future states and plan the best actions to maximize a reward function. These trajectories are imperfect and MBRL attempts to overcome this by relying on model predictive control (MPC) to continuously re-imagine trajectories from scratch. Such re-generation of imagined trajectories carries the major computational cost and increasing complexity in tasks with longer receding horizon. This paper aims to investigate how far in the future the imagined trajectories can be relied upon while still maintaining acceptable reward. Firstly, an error analysis is presented for systematic skipping recalculations for varying number of consecutive steps.% in several challenging benchmark control tasks. Secondly, we propose two methods offering when to trust and act upon imagined trajectories, looking at recent errors with respect to expectations, or comparing the confidence in an action imagined against its execution. Thirdly, we evaluate the effects of acting upon imagination while training the model of the world. Results show that acting upon imagination can reduce calculations by at least 20% and up to 80%, depending on the environment, while retaining acceptable reward.
Abstract（参考訳）: モデルベース強化学習(MBRL)は、世界の不完全なモデルを用いて将来の状態の軌跡を想像し、報酬関数を最大化するために最良の行動を計画する。これらの軌道は不完全であり、MBRLはモデル予測制御(MPC)に頼って軌道をゼロから連続的に再現することでこれを克服しようとする。このような想像された軌道の再生成は、大きな計算コストと、長い後退地平線を持つタスクの複雑さの増加をもたらす。本論文は, 将来, 想定される軌道が, 許容される報酬を維持しつつ, どこまで信頼できるかを検討することを目的とする。まず,いくつかの難解なベンチマーク制御タスクにおいて,連続するステップ数に対して系統的スキップ再計算を行うための誤り解析を行った。第2に,想定された軌道を信頼し行動するタイミング,期待に対する最近の誤りを見る方法,あるいはその実行に対して想定される行動の信頼性を比較する方法を提案する。第3に,世界のモデルを訓練しながら,想像力に及ぼす行動の影響を評価する。その結果、想像力に基づく行動は、許容される報酬を保ちながら、環境に応じて計算を少なくとも20%、最大80%削減できることが示された。

関連論文リスト

Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文参考訳（メタデータ） (2025-03-26T01:07:35Z)
Predictions as Surrogates: Revisiting Surrogate Outcomes in the Age of AI [12.569286058146343]
我々は、生物統計学における数十年前の代理結果モデルと予測駆動推論(PPI)の新たな分野との正式な関係を確立する。我々は、既存のPPI提案よりも効率的な統計的推論手法である、補正予測を用いた推論を開発する。我々は,最先端の機械学習/AIモデルを活用した3つのアプリケーションを通じて,既存のPPI提案よりも有効サンプルサイズが大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-01-16T18:30:33Z)
Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文参考訳（メタデータ） (2024-09-16T09:03:28Z)
Conformalized Selective Regression [2.3964255330849356]
共形予測を利用した選択回帰手法を提案する。提案手法は, 選択回帰に適合し, 複数の最先端ベースラインに対して有利であることを示す。
論文参考訳（メタデータ） (2024-02-26T04:43:50Z)
Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。軌道の適切な切り離しが性能向上に成功することを示す。
論文参考訳（メタデータ） (2023-05-07T19:41:57Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Plan To Predict: Learning an Uncertainty-Foreseeing Model for Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。 P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-20T10:17:22Z)
Scenario-based Evaluation of Prediction Models for Automated Vehicles [0.0]
自動運転車の安全性評価における評価の実践はシナリオベースで実施されるべきである。オープンモーションデータセットの軌跡を捉えた動きの種類に応じて分類する。その結果, 共通評価手法は不十分であり, モデルが動作するアプリケーションに応じて評価を行う必要があることがわかった。
論文参考訳（メタデータ） (2022-10-11T09:45:43Z)
Uncertainty estimation of pedestrian future trajectory using Bayesian approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文参考訳（メタデータ） (2022-05-04T04:23:38Z)
Evaluation of Machine Learning Techniques for Forecast Uncertainty Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文参考訳（メタデータ） (2021-11-29T16:52:17Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文参考訳（メタデータ） (2020-06-30T15:49:05Z)
Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文参考訳（メタデータ） (2020-02-13T15:55:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。