論文の概要: WD3: Taming the Estimation Bias in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.12622v2
- Date: Sat, 4 Nov 2023 12:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:51:29.093290
- Title: WD3: Taming the Estimation Bias in Deep Reinforcement Learning
- Title(参考訳): WD3: 深層強化学習における評価バイアスの活用
- Authors: Qiang He, Xinwen Hou
- Abstract要約: 我々はTD3アルゴリズムが軽度の仮定で過小評価バイアスをもたらすことを示す。
本稿では, 推定バイアスを除去できる, アンダーライン重み付きアンダーライン重み付きアンダーラインDeepアンダーライン決定性ポリシー勾配 (WD3) を提案する。
- 参考スコア(独自算出の注目度): 7.29018671106362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The overestimation phenomenon caused by function approximation is a
well-known issue in value-based reinforcement learning algorithms such as deep
Q-networks and DDPG, which could lead to suboptimal policies. To address this
issue, TD3 takes the minimum value between a pair of critics. In this paper, we
show that the TD3 algorithm introduces underestimation bias in mild
assumptions. To obtain a more precise estimation for value function, we unify
these two opposites and propose a novel algorithm \underline{W}eighted
\underline{D}elayed \underline{D}eep \underline{D}eterministic Policy Gradient
(WD3), which can eliminate the estimation bias and further improve the
performance by weighting a pair of critics. To demonstrate the effectiveness of
WD3, we compare the learning process of value function between DDPG, TD3, and
WD3. The results verify that our algorithm does eliminate the estimation error
of value functions. Furthermore, we evaluate our algorithm on the continuous
control tasks. We observe that in each test task, the performance of WD3
consistently outperforms, or at the very least matches, that of the
state-of-the-art algorithms\footnote{Our code is available
at~\href{https://sites.google.com/view/ictai20-wd3/}{https://sites.google.com/view/ictai20-wd3/}.}.
- Abstract(参考訳): 関数近似によって引き起こされる過剰推定現象は、ディープq-ネットワークやddpgのような値ベースの強化学習アルゴリズムでよく知られた問題である。
この問題を解決するため、TD3は2人の批評家の間で最小値を取る。
本稿では,td3アルゴリズムが軽度仮定に過大評価バイアスを導入することを示す。
より正確な価値関数の推定を得るため、これら2つの逆を統一し、推定バイアスを取り除き、一対の批評家を重み付けて性能をさらに向上できる新しいアルゴリズム \underline{w}eighted \underline{d}elayed \underline{d}eep \underline{d}eterministic policy gradient (wd3)を提案する。
WD3の有効性を示すため,DDPG,TD3,WD3の値関数の学習過程を比較した。
その結果,提案アルゴリズムは値関数の推定誤差を除去することを確認した。
さらに,連続制御タスクにおけるアルゴリズムの評価を行った。
各テストタスクにおいて、WD3のパフォーマンスは一貫して上回り、少なくとも、最先端のアルゴリズムである\footnote{Ourコードのパフォーマンスは、~\href{https://sites.google.com/view/ictai20-wd3/}{https://sites.google.com/view/ictai20-wd3/}で利用可能である。
}.
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients [11.545991873249564]
深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
論文 参考訳(メタデータ) (2021-12-21T13:45:40Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - An Empirical Comparison of Off-policy Prediction Learning Algorithms on
the Collision Task [9.207173776826403]
他の政策に従えば、ある政策のデータからある政策の価値関数を学習するオフ政治予測は、強化学習において最も困難なサブプロブレムの1つだ。
本稿では,線形関数近似を用いた11個の非政治学習アルゴリズムによる経験的結果を示す。
論文 参考訳(メタデータ) (2021-06-02T03:45:43Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Softmax Deep Double Deterministic Policy Gradients [37.23518654230526]
連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計し,ソフトマックス・オペレータを単一および二重推定器上に構築する。
論文 参考訳(メタデータ) (2020-10-19T02:52:00Z) - Wasserstein Distances for Stereo Disparity Estimation [62.09272563885437]
既定義の離散値の集合上の分布を出力する、奥行き推定や不均一推定への既存のアプローチ。
これにより、真の深さや差がこれらの値と一致しない場合に、不正確な結果をもたらす。
任意の深さの値を出力できる新しいニューラルネットワークアーキテクチャを用いて、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-07-06T21:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。