論文の概要: Temporal Difference Uncertainties as a Signal for Exploration
- arxiv url: http://arxiv.org/abs/2010.02255v2
- Date: Thu, 1 Jul 2021 09:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:54:55.419507
- Title: Temporal Difference Uncertainties as a Signal for Exploration
- Title(参考訳): 探索の信号としての時間差不確かさ
- Authors: Sebastian Flennerhag, Jane X. Wang, Pablo Sprechmann, Francesco Visin,
Alexandre Galashov, Steven Kapturowski, Diana L. Borsa, Nicolas Heess, Andre
Barreto, Razvan Pascanu
- Abstract要約: 強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
- 参考スコア(独自算出の注目度): 76.6341354269013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective approach to exploration in reinforcement learning is to rely on
an agent's uncertainty over the optimal policy, which can yield near-optimal
exploration strategies in tabular settings. However, in non-tabular settings
that involve function approximators, obtaining accurate uncertainty estimates
is almost as challenging a problem. In this paper, we highlight that value
estimates are easily biased and temporally inconsistent. In light of this, we
propose a novel method for estimating uncertainty over the value function that
relies on inducing a distribution over temporal difference errors. This
exploration signal controls for state-action transitions so as to isolate
uncertainty in value that is due to uncertainty over the agent's parameters.
Because our measure of uncertainty conditions on state-action transitions, we
cannot act on this measure directly. Instead, we incorporate it as an intrinsic
reward and treat exploration as a separate learning problem, induced by the
agent's temporal difference uncertainties. We introduce a distinct exploration
policy that learns to collect data with high estimated uncertainty, which gives
rise to a curriculum that smoothly changes throughout learning and vanishes in
the limit of perfect value estimates. We evaluate our method on hard
exploration tasks, including Deep Sea and Atari 2600 environments and find that
our proposed form of exploration facilitates both diverse and deep exploration.
- Abstract(参考訳): 強化学習における探索への効果的なアプローチは、最適方針に対するエージェントの不確実性に依存することである。
しかし、関数近似器を含む非タブラキな設定では、正確な不確実性推定がほとんど問題となる。
本稿では,評価値のバイアスや時間的に矛盾する点を強調する。
そこで本研究では,時間差誤差の分布を誘導する値関数上の不確かさを推定する新しい手法を提案する。
この探索信号は、エージェントのパラメータ上の不確実性に起因する値の不確かさを分離するために、状態動作遷移を制御する。
状態-作用遷移における不確実性条件の尺度は、直接この尺度に作用することができない。
代わりに、本質的な報酬として組み込んで、エージェントの時間的差異の不確実性によって引き起こされる別の学習問題として探索を扱います。
我々は,推定不確実性の高いデータ収集を学習し,学習を通してスムーズに変化し,完全価値推定の限界で消滅するカリキュラムを創出する,個別の探索方針を導入する。
本研究では,深海およびatari 2600環境を含むハード・エクスプロイト・タスクの手法を評価し,提案手法が多様かつ深海探査を促進できることを見いだした。
関連論文リスト
- Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Cost-Sensitive Uncertainty-Based Failure Recognition for Object Detection [1.8990839669542954]
本稿では,ユーザ定義予算に合わせて,オブジェクト検出のためのコスト感受性フレームワークを提案する。
性能劣化を防ぐために最低限の閾値設定要件を導出する。
エラー認識率を最大化するために、しきい値処理の自動化と最適化を行う。
論文 参考訳(メタデータ) (2024-04-26T14:03:55Z) - One step closer to unbiased aleatoric uncertainty estimation [71.55174353766289]
そこで本研究では,観測データのアクティブデノイズ化による新しい推定手法を提案する。
幅広い実験を行うことで,提案手法が標準手法よりも実際のデータ不確実性にはるかに近い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-12-16T14:59:11Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Exploring Uncertainty in Deep Learning for Construction of Prediction
Intervals [27.569681578957645]
深層学習における不確実性を探究し,予測区間を構築する。
不確実性ラベルなしで不確実性を学習できる特殊損失関数を設計した。
本手法は予測間隔の構成と不確実性推定とを関連付ける。
論文 参考訳(メタデータ) (2021-04-27T02:58:20Z) - Deep Learning based Uncertainty Decomposition for Real-time Control [9.067368638784355]
本稿では,ディープラーニングを用いたトレーニングデータの欠如を検出する新しい手法を提案する。
合成および実世界のデータセットに対する既存のアプローチに対する利点を示す。
さらに、シミュレーションされたクアッドコプターにオンラインデータ効率制御を展開させる上で、この不確実性推定の実用性を実証する。
論文 参考訳(メタデータ) (2020-10-06T10:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。