論文の概要: Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.16006v1
- Date: Sun, 23 Jun 2024 04:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:33:31.720060
- Title: Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning
- Title(参考訳): 誤り認識モデルに基づく強化学習のための境界ボックス推論
- Authors: Erin J. Talvitie, Zilei Shao, Huiying Li, Jinghan Hu, Jacob Boerma, Rory Zhao, Xintong Wang,
- Abstract要約: モデルに基づく強化学習では、シミュレーションされた経験は実環境からの経験と同等のものとして扱われることが多い。
モデルベースの更新に対する不確実性を推定するために、最適結果が分布に敏感な推測を必要とすることを示す。
境界ボックス推論は効果的な選択計画を支援することができる。
- 参考スコア(独自算出の注目度): 4.185571779339683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In model-based reinforcement learning, simulated experiences from the learned model are often treated as equivalent to experience from the real environment. However, when the model is inaccurate, it can catastrophically interfere with policy learning. Alternatively, the agent might learn about the model's accuracy and selectively use it only when it can provide reliable predictions. We empirically explore model uncertainty measures for selective planning and show that best results require distribution insensitive inference to estimate the uncertainty over model-based updates. To that end, we propose and evaluate bounding-box inference, which operates on bounding-boxes around sets of possible states and other quantities. We find that bounding-box inference can reliably support effective selective planning.
- Abstract(参考訳): モデルに基づく強化学習では、学習したモデルからシミュレーションされた経験は、実環境からの経験と同等のものとして扱われることが多い。
しかし、モデルが不正確であれば、破滅的に政策学習に干渉する可能性がある。
あるいは、エージェントはモデルの正確性について学び、信頼できる予測を提供する場合にのみ選択的に使用することができる。
選択計画のためのモデル不確実性対策を実証的に検討し、モデルベースの更新に対する不確かさを推定するために、最良の結果が分布に敏感な推測を必要とすることを示す。
そこで我々は,可能な状態やその他の量の集合を囲むバウンディングボックス上で動作するバウンディングボックス推論を提案し,評価する。
境界ボックス推論は効果的な選択計画を支援することができる。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Selective Dyna-style Planning Under Limited Model Capacity [26.63876180969654]
モデルに基づく強化学習では、環境の不完全なモデルによる計画は、学習の進行に害を与える可能性がある。
本稿では,不完全モデルの使用を選択的に検討する。
エージェントは、モデルが有用な状態空間の一部を計画するが、有害なモデルの使用を控える必要がある。
論文 参考訳(メタデータ) (2020-07-05T18:51:50Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。