Fugu-MT 論文翻訳(概要): Preventing Value Function Collapse in Ensemble {Q}-Learning by Maximizing Representation Diversity

論文の概要: Preventing Value Function Collapse in Ensemble {Q}-Learning by Maximizing Representation Diversity

arxiv url: http://arxiv.org/abs/2006.13823v3
Date: Fri, 21 Jan 2022 06:14:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 09:07:10.145909
Title: Preventing Value Function Collapse in Ensemble {Q}-Learning by Maximizing Representation Diversity
Title（参考訳）: 表現多様性の最大化によるアンサンブル「q」学習における価値関数崩壊の防止
Authors: Hassam Ullah Sheikh, Ladislau B\"ol\"oni
Abstract要約: MaxminとEnsemble Q-learningアルゴリズムは、過大評価バイアスを減らすために、学習者のアンサンブルが提供する異なる推定値を使用している。残念ながら、これらの学習者はパラメトリックまたは表現空間において同じ点に収束し、古典的な単一ニューラルネットワークDQNに戻ることができる。経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The classic DQN algorithm is limited by the overestimation bias of the learned Q-function. Subsequent algorithms have proposed techniques to reduce this problem, without fully eliminating it. Recently, the Maxmin and Ensemble Q-learning algorithms have used different estimates provided by the ensembles of learners to reduce the overestimation bias. Unfortunately, these learners can converge to the same point in the parametric or representation space, falling back to the classic single neural network DQN. In this paper, we describe a regularization technique to maximize ensemble diversity in these algorithms. We propose and compare five regularization functions inspired from economics theory and consensus optimization. We show that the regularized approach significantly outperforms the Maxmin and Ensemble Q-learning algorithms as well as non-ensemble baselines.
Abstract（参考訳）: 古典的DQNアルゴリズムは、学習されたQ-関数の過大評価バイアスによって制限される。その後のアルゴリズムは、それを完全に排除することなく、この問題を軽減する手法を提案している。近年、MaxminとEnsemble Q-learningアルゴリズムは、学習者のアンサンブルから得られる様々な推定値を用いて過大評価バイアスを低減している。残念ながら、これらの学習者はパラメトリックまたは表現空間の同じ点に収束し、古典的なニューラルネットワークdqnに戻ることができる。本稿では,これらのアルゴリズムにおけるアンサンブル多様性を最大化する正規化手法について述べる。経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。正規化アプローチは,非センスベースラインと同様に,maxminやアンサンブルのq-learningアルゴリズムを大きく上回っている。

関連論文リスト

Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:48Z)
Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning [24.212773534280387]
近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。 MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-13T06:16:12Z)
Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning [0.0]
逐次的過剰緩和(SOR)Q-ラーニングは、収束をスピードアップする緩和因子を導入し、2つの大きな制限がある。サンプルベースでモデルなしのダブルSORQ学習アルゴリズムを提案する。提案アルゴリズムは深部RLを用いて大規模問題に拡張される。
論文参考訳（メタデータ） (2024-09-10T09:23:03Z)
Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文参考訳（メタデータ） (2024-07-02T15:39:00Z)
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2024-02-08T08:08:23Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
On the Convergence of Distributed Stochastic Bilevel Optimization Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-30T05:29:52Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Efficient Methods for Structured Nonconvex-Nonconcave Min-Max Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文参考訳（メタデータ） (2020-10-31T21:35:42Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文参考訳（メタデータ） (2020-02-16T02:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。