論文の概要: Universal Value-Function Uncertainties
- arxiv url: http://arxiv.org/abs/2505.21119v2
- Date: Mon, 02 Jun 2025 16:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.015266
- Title: Universal Value-Function Uncertainties
- Title(参考訳): Universal Value-Function Uncertainties
- Authors: Moritz A. Zanger, Max Weltevrede, Yaniv Oren, Pascal R. Van der Vaart, Caroline Horsch, Wendelin Böhmer, Matthijs T. J. Spaan,
- Abstract要約: 本稿では,オンライン学習者とランダムなネットワーク間の二乗誤差として不確かさを定量化する普遍的値関数不確実性(Universal value-function uncertainties)を提案する。
提案手法は,マルチタスクのオフライン設定に挑戦する大規模アンサンブルと同等の性能を示す。
- 参考スコア(独自算出の注目度): 4.904926478803082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating epistemic uncertainty in value functions is a crucial challenge for many aspects of reinforcement learning (RL), including efficient exploration, safe decision-making, and offline RL. While deep ensembles provide a robust method for quantifying value uncertainty, they come with significant computational overhead. Single-model methods, while computationally favorable, often rely on heuristics and typically require additional propagation mechanisms for myopic uncertainty estimates. In this work we introduce universal value-function uncertainties (UVU), which, similar in spirit to random network distillation (RND), quantify uncertainty as squared prediction errors between an online learner and a fixed, randomly initialized target network. Unlike RND, UVU errors reflect policy-conditional value uncertainty, incorporating the future uncertainties any given policy may encounter. This is due to the training procedure employed in UVU: the online network is trained using temporal difference learning with a synthetic reward derived from the fixed, randomly initialized target network. We provide an extensive theoretical analysis of our approach using neural tangent kernel (NTK) theory and show that in the limit of infinite network width, UVU errors are exactly equivalent to the variance of an ensemble of independent universal value functions. Empirically, we show that UVU achieves equal performance to large ensembles on challenging multi-task offline RL settings, while offering simplicity and substantial computational savings.
- Abstract(参考訳): 価値関数の認識の不確かさを推定することは、効率的な探索、安全な意思決定、オフラインRLを含む強化学習(RL)の多くの側面にとって重要な課題である。
深層アンサンブルは値の不確かさを定量化する堅牢な方法を提供するが、計算オーバーヘッドは大きい。
単モデル法は計算上有利であるが、しばしばヒューリスティックに頼り、通常、筋力不確実性推定のためにさらなる伝播機構を必要とする。
本研究では,ランダムネットワーク蒸留(RND)と同様に,オンライン学習者と固定初期化対象ネットワークとの間の二乗予測誤差として不確かさを定量化する普遍的値関数不確実性(UVU)を提案する。
RNDとは異なり、UVUエラーは政策条件値の不確実性を反映しており、任意の政策が直面する可能性のある将来の不確実性を取り入れている。
オンラインネットワークは、時間差学習を用いて、固定されたランダムに初期化されたターゲットネットワークから得られる合成報酬を用いて訓練される。
ニューラル・タンジェント・カーネル(NTK)理論を用いて、我々のアプローチの広範な理論的解析を行い、無限のネットワーク幅の限界において、UVU誤差は独立普遍値関数のアンサンブルのばらつきと完全に等価であることを示す。
実験により,UVUは複数タスクのオフラインRL設定に挑戦する上で,大規模なアンサンブルと同等の性能を達成し,単純さと計算量を大幅に削減できることを示した。
関連論文リスト
- Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model [5.624791703748109]
不確かさの定量化は強化学習と深層学習の重要な側面である。
本研究では,1つのモデルによる深層ニューラルネットワークのアンサンブルの分散を明示的に推定する新しい手法である文脈類似蒸留を提案する。
提案手法は,様々なアウト・オブ・ディストリビューション検出ベンチマークとスパース・リワード強化学習環境にまたがって実証的に検証する。
論文 参考訳(メタデータ) (2025-03-14T12:09:58Z) - Variation Due to Regularization Tractably Recovers Bayesian Deep Learning [44.16006844888796]
本稿では,正規化による変動に基づく大規模ネットワークの不確実性定量化手法を提案する。
正規化変動(RegVar)は、無限小極限においてベイズ深層学習におけるラプラス近似を正確に回復する厳密な不確実性を推定する。
複数のデータセットにまたがる実験により、RegVarは不確実な予測を効果的に識別するだけでなく、学習した表現の安定性に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-15T20:47:39Z) - Uncertainty-Aware Deep Attention Recurrent Neural Network for
Heterogeneous Time Series Imputation [0.25112747242081457]
欠落は多変量時系列においてユビキタスであり、信頼できる下流分析の障害となる。
本稿では、欠落した値とその関連不確かさを共同で推定するDeep Attention Recurrent Imputation (Imputation)を提案する。
実験の結果,実世界のデータセットを用いた多様な計算タスクにおいて,SOTAを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-04T13:21:11Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Toward Robust Uncertainty Estimation with Random Activation Functions [3.0586855806896045]
本稿では,ランダムアクティベーション関数(RAF)アンサンブルを用いた不確実性定量化手法を提案する。
RAF アンサンブルは、合成データセットと実世界のデータセットの両方において、最先端のアンサンブル不確実性定量化手法より優れている。
論文 参考訳(メタデータ) (2023-02-28T13:17:56Z) - Why So Pessimistic? Estimating Uncertainties for Offline RL through
Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。
我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。
D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文 参考訳(メタデータ) (2022-05-27T01:30:12Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。