論文の概要: Uncertainty Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2506.09270v1
- Date: Tue, 10 Jun 2025 22:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.117882
- Title: Uncertainty Prioritized Experience Replay
- Title(参考訳): 不確実性優先体験リプレイ
- Authors: Rodrigo Carrasco-Davis, Sebastian Lee, Claudia Clopath, Will Dabney,
- Abstract要約: 優先順位付けされたエクスペリエンスリプレイは、パラメータ推定を更新するための関連するトランジションを選択することで、サンプル効率を改善する。
疫学的不確実性推定は、価値推定におけるノイズの破壊的影響を軽減するのに役立つ。
- 参考スコア(独自算出の注目度): 13.765526492965853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prioritized experience replay, which improves sample efficiency by selecting relevant transitions to update parameter estimates, is a crucial component of contemporary value-based deep reinforcement learning models. Typically, transitions are prioritized based on their temporal difference error. However, this approach is prone to favoring noisy transitions, even when the value estimation closely approximates the target mean. This phenomenon resembles the noisy TV problem postulated in the exploration literature, in which exploration-guided agents get stuck by mistaking noise for novelty. To mitigate the disruptive effects of noise in value estimation, we propose using epistemic uncertainty estimation to guide the prioritization of transitions from the replay buffer. Epistemic uncertainty quantifies the uncertainty that can be reduced by learning, hence reducing transitions sampled from the buffer generated by unpredictable random processes. We first illustrate the benefits of epistemic uncertainty prioritized replay in two tabular toy models: a simple multi-arm bandit task, and a noisy gridworld. Subsequently, we evaluate our prioritization scheme on the Atari suite, outperforming quantile regression deep Q-learning benchmarks; thus forging a path for the use of uncertainty prioritized replay in reinforcement learning agents.
- Abstract(参考訳): パラメータ推定を更新するために関連する遷移を選択することで、サンプル効率を向上させる優先経験リプレイは、現代の価値に基づく深層強化学習モデルにおいて重要な要素である。
通常、遷移は時間差誤差に基づいて優先順位付けされる。
しかし, この手法は, 推定値が目標平均に近似した場合でも, ノイズ遷移を好む傾向にある。
この現象は、探索研究で示唆されたノイズの多いテレビ問題に似ており、探索誘導エージェントは、新規性のためにノイズを間違えて立ち往生する。
評価におけるノイズの破壊的影響を軽減するため,再生バッファからの遷移の優先順位付けを支援するため,疫学的な不確実性推定法を提案する。
疫学の不確実性は、学習によって減少しうる不確実性を定量化し、予測不能なランダムプロセスによって生成されたバッファからサンプリングされた遷移を減少させる。
まず, 単純なマルチアーム・バンディット・タスクと, ノイズの多いグリッドワールドという2つの表型玩具モデルにおいて, 先天的な不確実性の優先されたリプレイの利点を説明する。
続いて,Atariスイート上での優先度付け手法の評価を行い,量子レグレッション深度Q-ラーニングベンチマークよりも優れており,強化学習エージェントにおける不確実性優先リプレイの活用の道筋を定めている。
関連論文リスト
- CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Square Root Principal Component Pursuit: Tuning-Free Noisy Robust Matrix
Recovery [8.581512812219737]
本稿では,ノイズや外周波で劣化した観測結果から低ランク行列を復元する新しい枠組みを提案する。
平方根のラッソにインスパイアされたこの新しい定式化は、ノイズレベルに関する事前の知識を必要としない。
正規化パラメータの1つの普遍的な選択は、(事前未知の)雑音レベルに比例した再構成誤差を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-17T02:28:11Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z) - Noise-Sampling Cross Entropy Loss: Improving Disparity Regression Via
Cost Volume Aware Regularizer [38.86850327892113]
本稿では,ディープニューラルネットワークが生み出すコストを一様かつコヒーレントに調整するためのノイズサンプリングクロスエントロピー損失関数を提案する。
実験により、提案されたノイズサンプリングクロスエントロピー損失は、ニューラルネットワークがより情報的なコストボリュームを学ぶのに役立つだけでなく、ステレオマッチング性能の向上につながることが検証された。
論文 参考訳(メタデータ) (2020-05-18T15:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。