論文の概要: Selective Dyna-style Planning Under Limited Model Capacity
- arxiv url: http://arxiv.org/abs/2007.02418v3
- Date: Sun, 7 Mar 2021 21:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 07:46:25.746705
- Title: Selective Dyna-style Planning Under Limited Model Capacity
- Title(参考訳): 限定モデル容量下における選択型ダイナスタイル計画
- Authors: Zaheer Abbas, Samuel Sokota, Erin J. Talvitie, Martha White
- Abstract要約: モデルに基づく強化学習では、環境の不完全なモデルによる計画は、学習の進行に害を与える可能性がある。
本稿では,不完全モデルの使用を選択的に検討する。
エージェントは、モデルが有用な状態空間の一部を計画するが、有害なモデルの使用を控える必要がある。
- 参考スコア(独自算出の注目度): 26.63876180969654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In model-based reinforcement learning, planning with an imperfect model of
the environment has the potential to harm learning progress. But even when a
model is imperfect, it may still contain information that is useful for
planning. In this paper, we investigate the idea of using an imperfect model
selectively. The agent should plan in parts of the state space where the model
would be helpful but refrain from using the model where it would be harmful. An
effective selective planning mechanism requires estimating predictive
uncertainty, which arises out of aleatoric uncertainty, parameter uncertainty,
and model inadequacy, among other sources. Prior work has focused on parameter
uncertainty for selective planning. In this work, we emphasize the importance
of model inadequacy. We show that heteroscedastic regression can signal
predictive uncertainty arising from model inadequacy that is complementary to
that which is detected by methods designed for parameter uncertainty,
indicating that considering both parameter uncertainty and model inadequacy may
be a more promising direction for effective selective planning than either in
isolation.
- Abstract(参考訳): モデルベースの強化学習では、不完全な環境モデルによる計画が学習の進捗を損なう可能性がある。
しかし、モデルが不完全である場合でも、計画に有用な情報を含む可能性がある。
本稿では,不完全モデルの使用を選択的に検討する。
エージェントは、モデルが役に立つが、それが有害なモデルの使用を控える状態空間の一部で計画すべきである。
効果的な選択的計画機構は、有理不確実性、パラメータ不確実性、およびモデル不確実性から生じる予測不確実性の推定を必要とする。
事前の作業は、選択計画のパラメータの不確実性に重点を置いてきた。
本研究では,モデル不足の重要性を強調する。
パラメータ不確実性を考慮した手法によって検出されるモデル不確かさと相補的なモデル不確かさから生じる予測的不確かさが,パラメータ不確かさとモデル不確かさの両方を考慮すれば,より有望な選択的計画の方向になる可能性が示唆された。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Entropy-Based Uncertainty Modeling for Trajectory Prediction in Autonomous Driving [9.365269316773219]
我々は、不確実性の定量化、分解、およびモデル構成の影響に焦点を当てた全体論的アプローチを採用する。
提案手法は,不確実性を測定するための理論に基づく情報理論に基づく手法である。
我々はnuScenesデータセットに関する広範な実験を行い、異なるモデルアーキテクチャと構成が不確実性定量化とモデルロバスト性にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-10-02T15:02:32Z) - Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning [4.185571779339683]
モデルに基づく強化学習では、シミュレーションされた経験は実環境からの経験と同等のものとして扱われることが多い。
モデルベースの更新に対する不確実性を推定するために、最適結果が分布に敏感な推測を必要とすることを示す。
境界ボックス推論は効果的な選択計画を支援することができる。
論文 参考訳(メタデータ) (2024-06-23T04:23:15Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - ALUM: Adversarial Data Uncertainty Modeling from Latent Model
Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。
提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文 参考訳(メタデータ) (2023-03-29T17:24:12Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Uncertainty estimation under model misspecification in neural network
regression [3.2622301272834524]
モデル選択が不確実性評価に与える影響について検討する。
モデルミスセグメンテーションでは,アレータリック不確実性は適切に捉えられていない。
論文 参考訳(メタデータ) (2021-11-23T10:18:41Z) - Dense Uncertainty Estimation via an Ensemble-based Conditional Latent
Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。
そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。
以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-22T08:54:10Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。