論文の概要: Reducing Estimation Bias via Weighted Delayed Deep Deterministic Policy
Gradient
- arxiv url: http://arxiv.org/abs/2006.12622v1
- Date: Thu, 18 Jun 2020 01:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 10:09:36.487789
- Title: Reducing Estimation Bias via Weighted Delayed Deep Deterministic Policy
Gradient
- Title(参考訳): 重み付き遅延Deep Deterministic Policy Gradientによる推定バイアスの低減
- Authors: Qiang He, Xinwen Hou
- Abstract要約: TD3は2組の批評家の間で最小値をとり、過小評価バイアスをもたらす。
本稿では,推定誤差を低減できる重み付きDeep Delayed Policy Gradientアルゴリズムを提案する。
我々は,OpenAI Gym連続制御タスクにおいて,テスト対象のすべての環境において,最先端のアルゴリズムよりも優れるアルゴリズムを評価した。
- 参考スコア(独自算出の注目度): 7.513281515545507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The overestimation phenomenon caused by function approximation is a
well-known issue in value-based reinforcement learning algorithms such as deep
Q-networks and DDPG, which could lead to suboptimal policies. To address this
issue, TD3 takes the minimum value between a pair of critics, which introduces
underestimation bias. By unifying these two opposites, we propose a novel
Weighted Delayed Deep Deterministic Policy Gradient algorithm, which can reduce
the estimation error and further improve the performance by weighting a pair of
critics. We compare the learning process of value function between DDPG, TD3,
and our proposed algorithm, which verifies that our algorithm could indeed
eliminate the estimation error of value function. We evaluate our algorithm in
the OpenAI Gym continuous control tasks, outperforming the state-of-the-art
algorithms on every environment tested.
- Abstract(参考訳): 関数近似によって引き起こされる過剰推定現象は、ディープq-ネットワークやddpgのような値ベースの強化学習アルゴリズムでよく知られた問題である。
この問題に対処するため、TD3は2人の批評家の間で最小値を取る。
この2つの逆を統一することにより,推定誤差を低減し,一対の批評家を重み付けすることにより,さらに性能を向上させる新しい重み付き遅延型決定論的政策勾配アルゴリズムを提案する。
DDPG,TD3,提案アルゴリズムの値関数の学習過程を比較し,提案アルゴリズムが実際に値関数の推定誤差を除去できることを確認した。
我々は,OpenAI Gym連続制御タスクにおいて,テスト対象のすべての環境において,最先端のアルゴリズムよりも優れるアルゴリズムを評価した。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients [11.545991873249564]
深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
論文 参考訳(メタデータ) (2021-12-21T13:45:40Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - An Empirical Comparison of Off-policy Prediction Learning Algorithms on
the Collision Task [9.207173776826403]
他の政策に従えば、ある政策のデータからある政策の価値関数を学習するオフ政治予測は、強化学習において最も困難なサブプロブレムの1つだ。
本稿では,線形関数近似を用いた11個の非政治学習アルゴリズムによる経験的結果を示す。
論文 参考訳(メタデータ) (2021-06-02T03:45:43Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Softmax Deep Double Deterministic Policy Gradients [37.23518654230526]
連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計し,ソフトマックス・オペレータを単一および二重推定器上に構築する。
論文 参考訳(メタデータ) (2020-10-19T02:52:00Z) - Wasserstein Distances for Stereo Disparity Estimation [62.09272563885437]
既定義の離散値の集合上の分布を出力する、奥行き推定や不均一推定への既存のアプローチ。
これにより、真の深さや差がこれらの値と一致しない場合に、不正確な結果をもたらす。
任意の深さの値を出力できる新しいニューラルネットワークアーキテクチャを用いて、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-07-06T21:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。