論文の概要: Model-Value Inconsistency as a Signal for Epistemic Uncertainty
- arxiv url: http://arxiv.org/abs/2112.04153v1
- Date: Wed, 8 Dec 2021 07:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 23:33:41.513799
- Title: Model-Value Inconsistency as a Signal for Epistemic Uncertainty
- Title(参考訳): てんかん不確実性の信号としてのモデル値不整合
- Authors: Angelos Filos, Eszter V\'ertes, Zita Marinho, Gregory Farquhar, Diana
Borsa, Abram Friesen, Feryal Behbahani, Tom Schaul, Andr\'e Barreto, Simon
Osindero
- Abstract要約: 自己整合性(Self-Insistency)は、探索のための信号であり、(ii)分散シフトの下で安全に行動するための信号であり、(iii)モデルによる価値に基づく計画の堅牢化のための信号である。
従来の研究とは異なり、このアプローチはモデルベース強化学習アルゴリズムですでに学習されている単一のモデルと値関数のみを必要とする。
- 参考スコア(独自算出の注目度): 22.492926703232015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a model of the environment and a value function, an agent can construct
many estimates of a state's value, by unrolling the model for different lengths
and bootstrapping with its value function. Our key insight is that one can
treat this set of value estimates as a type of ensemble, which we call an
\emph{implicit value ensemble} (IVE). Consequently, the discrepancy between
these estimates can be used as a proxy for the agent's epistemic uncertainty;
we term this signal \emph{model-value inconsistency} or
\emph{self-inconsistency} for short. Unlike prior work which estimates
uncertainty by training an ensemble of many models and/or value functions, this
approach requires only the single model and value function which are already
being learned in most model-based reinforcement learning algorithms. We provide
empirical evidence in both tabular and function approximation settings from
pixels that self-inconsistency is useful (i) as a signal for exploration, (ii)
for acting safely under distribution shifts, and (iii) for robustifying
value-based planning with a model.
- Abstract(参考訳): エージェントは、環境モデルと値関数を使用して、異なる長さのモデルをアンロールし、その値関数でブートストラップすることで、状態値の多くの推定値を構築することができる。
私たちの重要な洞察は、この値のセットをアンサンブルのタイプとして扱うことができ、それを \emph{implicit value ensemble} (IVE) と呼ぶことです。
したがって、これらの推定値の差はエージェントの認識の不確かさの代理として使用することができ、この信号は略して \emph{model-value inconsistency} または \emph{self-inconsistency} と呼ばれる。
多くのモデルと/または値関数のアンサンブルを訓練することで不確実性を推定する以前の仕事とは異なり、このアプローチは、モデルベースの強化学習アルゴリズムで既に学習されている単一のモデルと値関数のみを必要とする。
自己整合性が有用であることを示す画素からの表と関数の近似設定における実証的証拠を提供する。
(i)探検の合図として
(ii)流通シフト時に安全に行うこと、及び
(iii)モデルによる価値ベースの計画の堅牢化。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Scope Compliance Uncertainty Estimate [0.4262974002462632]
SafeMLはそのような監視を行うためのモデルに依存しないアプローチである。
この研究は、二項決定を連続計量に変換することによってこれらの制限に対処する。
論文 参考訳(メタデータ) (2023-12-17T19:44:20Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Spectral Representation Learning for Conditional Moment Models [33.34244475589745]
本研究では,不適切度を制御した表現を自動学習する手法を提案する。
本手法は,条件付き期待演算子のスペクトル分解によって定義される線形表現を近似する。
この表現をデータから効率的に推定できることを示し、得られた推定値に対してL2整合性を確立する。
論文 参考訳(メタデータ) (2022-10-29T07:48:29Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。