論文の概要: Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks
- arxiv url: http://arxiv.org/abs/2209.07670v1
- Date: Fri, 16 Sep 2022 01:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:00:00.849716
- Title: Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks
- Title(参考訳): 深層ネットワークによる時間差値推定におけるばらつきの低減
- Authors: Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander
Ihler, Pieter Abbeel, Roy Fox
- Abstract要約: MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
- 参考スコア(独自算出の注目度): 109.59988683444986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In temporal-difference reinforcement learning algorithms, variance in value
estimation can cause instability and overestimation of the maximal target
value. Many algorithms have been proposed to reduce overestimation, including
several recent ensemble methods, however none have shown success in
sample-efficient learning through addressing estimation variance as the root
cause of overestimation. In this paper, we propose MeanQ, a simple ensemble
method that estimates target values as ensemble means. Despite its simplicity,
MeanQ shows remarkable sample efficiency in experiments on the Atari Learning
Environment benchmark. Importantly, we find that an ensemble of size 5
sufficiently reduces estimation variance to obviate the lagging target network,
eliminating it as a source of bias and further gaining sample efficiency. We
justify intuitively and empirically the design choices in MeanQ, including the
necessity of independent experience sampling. On a set of 26 benchmark Atari
environments, MeanQ outperforms all tested baselines, including the best
available baseline, SUNRISE, at 100K interaction steps in 16/26 environments,
and by 68% on average. MeanQ also outperforms Rainbow DQN at 500K steps in
21/26 environments, and by 49% on average, and achieves average human-level
performance using 200K ($\pm$100K) interaction steps. Our implementation is
available at https://github.com/indylab/MeanQ.
- Abstract(参考訳): 時間差強化学習アルゴリズムでは、値推定のばらつきは最大目標値の不安定性と過大評価を引き起こす可能性がある。
多くのアルゴリズムが過大評価を減らすために提案されており、近年のアンサンブル法もいくつかあるが、過大評価の根本原因として推定分散に対処してサンプル効率の学習に成功した例はない。
本稿では,目標値をアンサンブル手段として推定する単純なアンサンブル手法であるMeanQを提案する。
その単純さにもかかわらず、MeanQはAtari Learning Environmentベンチマークの実験で顕著なサンプル効率を示している。
重要となるのは,サイズ5のアンサンブルが推定ばらつきを十分に低減し,遅延目標ネットワークを緩和し,バイアスの源として排除し,サンプル効率をさらに向上させることである。
meanqの設計選択を直感的かつ経験的に正当化し、独立した経験のサンプリングの必要性も含んでいる。
26のベンチマークatari環境において、sumerqは、利用可能なベースラインであるsunriseを含むテスト済みベースラインを16/26環境で100kインタラクションステップ、平均で68%上回っている。
MeanQはまた、21/26環境で500Kステップ、平均49%でRainbow DQNを上回り、200K($100K)のインタラクションステップを使用して平均的な人間レベルのパフォーマンスを達成する。
実装はhttps://github.com/indylab/meanqで利用可能です。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - Theoretical Analysis of Explicit Averaging and Novel Sign Averaging in
Comparison-Based Search [6.883986852278248]
ブラックボックス最適化では、目的関数のノイズは避けられない。
明示的平均化は、単純で汎用的なノイズハンドリング技術として広く利用されている。
あるいは、手話平均化は単純だが頑健なノイズハンドリング手法として提案される。
論文 参考訳(メタデータ) (2024-01-25T08:35:50Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。