Fugu-MT 論文翻訳(概要): Cross Learning in Deep Q-Networks

論文の概要: Cross Learning in Deep Q-Networks

arxiv url: http://arxiv.org/abs/2009.13780v1
Date: Tue, 29 Sep 2020 04:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 06:29:12.350634
Title: Cross Learning in Deep Q-Networks
Title（参考訳）: ディープqネットワークにおけるクロスラーニング
Authors: Xing Wang, Alexander Vinel
Abstract要約: 本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
参考スコア（独自算出の注目度）: 82.20059754270302
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a novel cross Q-learning algorithm, aim at alleviating the well-known overestimation problem in value-based reinforcement learning methods, particularly in the deep Q-networks where the overestimation is exaggerated by function approximation errors. Our algorithm builds on double Q-learning, by maintaining a set of parallel models and estimate the Q-value based on a randomly selected network, which leads to reduced overestimation bias as well as the variance. We provide empirical evidence on the advantages of our method by evaluating on some benchmark environment, the experimental results demonstrate significant improvement of performance in reducing the overestimation bias and stabilizing the training, further leading to better derived policies.
Abstract（参考訳）: 本研究では,値ベース強化学習法,特に関数近似誤差によって過大評価が過大評価される深層qネットワークにおいて,よく知られた過大評価問題を緩和することを目的とした,新しいクロスq学習アルゴリズムを提案する。このアルゴリズムは、並列モデルのセットを維持し、ランダムに選択されたネットワークに基づいてq値の推定を行うことで、2つのq学習を基盤としている。また,本手法の利点を,ベンチマーク環境で評価することで実証的に実証し,評価バイアスを低減し,トレーニングを安定化する上で,性能が著しく向上することを示した。

関連論文リスト

Neural-Network-Driven Reward Prediction as a Heuristic: Advancing Q-Learning for Mobile Robot Path Planning [10.066546417538786]
ニューラルネットワークの出力を情報として利用し,Q-ラーニングの収束過程を高速化するNDR-QL法を提案する。提案手法は,ベースラインQ-ラーニング手法の収束速度を90%向上し,パス品質の指標において従来改善されていたQ-ラーニング手法を上回っている。
論文参考訳（メタデータ） (2024-12-17T08:19:40Z)
Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。 2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文参考訳（メタデータ） (2024-05-03T15:57:26Z)
Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。提案手法は,最新のPCQA手法よりも高い性能を示す。
論文参考訳（メタデータ） (2024-03-15T07:16:07Z)
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文参考訳（メタデータ） (2023-12-12T19:24:35Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-08T09:17:16Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文参考訳（メタデータ） (2021-09-29T13:41:24Z)
Parameter-Free Deterministic Reduction of the Estimation Bias in Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文参考訳（メタデータ） (2021-09-24T07:41:07Z)
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文参考訳（メタデータ） (2021-09-22T13:49:35Z)
On the Reduction of Variance and Overestimation of Deep Q-Learning [0.0]
本稿では,分散度と過大評価量を削減する方法として,深層Q-LearningアルゴリズムにおけるDropout手法を提案する。また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。
論文参考訳（メタデータ） (2019-10-14T08:43:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。