論文の概要: Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks
- arxiv url: http://arxiv.org/abs/2209.07670v1
- Date: Fri, 16 Sep 2022 01:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-19 13:00:00.849716
- Title: Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks
- Title(参考訳): 深層ネットワークによる時間差値推定におけるばらつきの低減
- Authors: Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander
Ihler, Pieter Abbeel, Roy Fox
- Abstract要約: MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
- 参考スコア(独自算出の注目度): 109.59988683444986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In temporal-difference reinforcement learning algorithms, variance in value
estimation can cause instability and overestimation of the maximal target
value. Many algorithms have been proposed to reduce overestimation, including
several recent ensemble methods, however none have shown success in
sample-efficient learning through addressing estimation variance as the root
cause of overestimation. In this paper, we propose MeanQ, a simple ensemble
method that estimates target values as ensemble means. Despite its simplicity,
MeanQ shows remarkable sample efficiency in experiments on the Atari Learning
Environment benchmark. Importantly, we find that an ensemble of size 5
sufficiently reduces estimation variance to obviate the lagging target network,
eliminating it as a source of bias and further gaining sample efficiency. We
justify intuitively and empirically the design choices in MeanQ, including the
necessity of independent experience sampling. On a set of 26 benchmark Atari
environments, MeanQ outperforms all tested baselines, including the best
available baseline, SUNRISE, at 100K interaction steps in 16/26 environments,
and by 68% on average. MeanQ also outperforms Rainbow DQN at 500K steps in
21/26 environments, and by 49% on average, and achieves average human-level
performance using 200K ($\pm$100K) interaction steps. Our implementation is
available at https://github.com/indylab/MeanQ.
- Abstract(参考訳): 時間差強化学習アルゴリズムでは、値推定のばらつきは最大目標値の不安定性と過大評価を引き起こす可能性がある。
多くのアルゴリズムが過大評価を減らすために提案されており、近年のアンサンブル法もいくつかあるが、過大評価の根本原因として推定分散に対処してサンプル効率の学習に成功した例はない。
本稿では,目標値をアンサンブル手段として推定する単純なアンサンブル手法であるMeanQを提案する。
その単純さにもかかわらず、MeanQはAtari Learning Environmentベンチマークの実験で顕著なサンプル効率を示している。
重要となるのは,サイズ5のアンサンブルが推定ばらつきを十分に低減し,遅延目標ネットワークを緩和し,バイアスの源として排除し,サンプル効率をさらに向上させることである。
meanqの設計選択を直感的かつ経験的に正当化し、独立した経験のサンプリングの必要性も含んでいる。
26のベンチマークatari環境において、sumerqは、利用可能なベースラインであるsunriseを含むテスト済みベースラインを16/26環境で100kインタラクションステップ、平均で68%上回っている。
MeanQはまた、21/26環境で500Kステップ、平均49%でRainbow DQNを上回り、200K($100K)のインタラクションステップを使用して平均的な人間レベルのパフォーマンスを達成する。
実装はhttps://github.com/indylab/meanqで利用可能です。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Quantum King-Ring Domination in Chess: A QAOA Approach [2.7474031534471384]
量子キングリング・ドミネーション(Quantum King-Ring Domination、QKRD)は、チェスの戦術的位置から派生したNISQスケールのベンチマークである。
我々はQAOA設計選択を体系的に評価し、制約保存ミキサーが標準ミキサーよりも約13ステップ早く収束していることを見出した。
内在的検証では、QAOAはグリーディを12.6%、ランダム選択を80.1%上回っている。
論文 参考訳(メタデータ) (2026-01-01T11:59:40Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - DDPM Score Matching and Distribution Learning [24.341062891949953]
スコア推定はスコアベース生成モデル(SGM)のバックボーンである
本稿では,パラメータと密度推定のタスクに対するスコア推定を削減したフレームワークを提案する。
我々は,H"クラスに対する密度推定のための最小値と準多項式PAC密度推定アルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-04-07T15:07:19Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - Theoretical Analysis of Explicit Averaging and Novel Sign Averaging in
Comparison-Based Search [6.883986852278248]
ブラックボックス最適化では、目的関数のノイズは避けられない。
明示的平均化は、単純で汎用的なノイズハンドリング技術として広く利用されている。
あるいは、手話平均化は単純だが頑健なノイズハンドリング手法として提案される。
論文 参考訳(メタデータ) (2024-01-25T08:35:50Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。