論文の概要: Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients
- arxiv url: http://arxiv.org/abs/2112.11216v1
- Date: Tue, 21 Dec 2021 13:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:06:58.317237
- Title: Value Activation for Bias Alleviation: Generalized-activated Deep Double
Deterministic Policy Gradients
- Title(参考訳): バイアス緩和のためのバリューアクティベーション:一般化された二重決定論的政策勾配
- Authors: Jiafei Lyu and Yu Yang and Jiangpeng Yan and Xiu Li
- Abstract要約: 深層強化学習(DRL)における値関数を正確に推定することは不可欠である。
既存のアクター批判的手法は、過小評価バイアスまたは過大評価バイアスにより、多かれ少なかれ悩まされる。
本稿では、より優れた値推定のための重み付けとして、非減少関数、すなわちアクティベーション関数を用いる一般化活性化重み演算子を提案する。
- 参考スコア(独自算出の注目度): 11.545991873249564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is vital to accurately estimate the value function in Deep Reinforcement
Learning (DRL) such that the agent could execute proper actions instead of
suboptimal ones. However, existing actor-critic methods suffer more or less
from underestimation bias or overestimation bias, which negatively affect their
performance. In this paper, we reveal a simple but effective principle: proper
value correction benefits bias alleviation, where we propose the
generalized-activated weighting operator that uses any non-decreasing function,
namely activation function, as weights for better value estimation.
Particularly, we integrate the generalized-activated weighting operator into
value estimation and introduce a novel algorithm, Generalized-activated Deep
Double Deterministic Policy Gradients (GD3). We theoretically show that GD3 is
capable of alleviating the potential estimation bias. We interestingly find
that simple activation functions lead to satisfying performance with no
additional tricks, and could contribute to faster convergence. Experimental
results on numerous challenging continuous control tasks show that GD3 with
task-specific activation outperforms the common baseline methods. We also
uncover a fact that fine-tuning the polynomial activation function achieves
superior results on most of the tasks.
- Abstract(参考訳): 深層強化学習(DRL)における値関数を正確に推定し、エージェントが最適でないものの代わりに適切なアクションを実行できるようにすることが不可欠である。
しかし、既存のアクター批判手法は、その性能に悪影響を及ぼす過小評価バイアスや過大評価バイアスに悩まされている。
本稿では, 適切な値補正がバイアス緩和に有効であることを明らかにするとともに, より優れた値推定のための重み付けとして, 任意の非減少関数、すなわち活性化関数を使用する一般化活性化重み付け演算子を提案する。
特に、一般化活性化重み付け演算子を値推定に統合し、新しいアルゴリズム、一般化活性化Deep Double Deterministic Policy Gradients (GD3)を導入する。
理論的には、gd3はポテンシャル推定バイアスを軽減することができる。
興味深いことに、単純なアクティベーション関数は追加のトリックなしで性能を満足させ、より高速な収束に寄与する。
タスク固有のアクティベーションを持つGD3が共通のベースライン法より優れていることを示す。
また,多項式アクティベーション関数の微調整により,ほとんどのタスクにおいて優れた結果が得られることも明らかにした。
関連論文リスト
- ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - DrM: Mastering Visual Reinforcement Learning through Dormant Ratio
Minimization [43.60484692738197]
ビジュアル強化学習は、継続的な制御タスクにおいて有望である。
現在のアルゴリズムは、パフォーマンスのあらゆる面において、いまだに満足できない。
DrMは、ドッグドメインとマニピュレータドメインの両方のタスクを一貫して解決する最初のモデルフリーアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-30T15:50:56Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Data-aware customization of activation functions reduces neural network
error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文 参考訳(メタデータ) (2023-01-16T23:38:37Z) - Efficient Neural Network Analysis with Sum-of-Infeasibilities [64.31536828511021]
凸最適化における総和係数法に着想を得て,広範な分岐関数を持つネットワーク上での検証クエリを解析するための新しい手法を提案する。
標準ケース分析に基づく完全探索手順の拡張は、各検索状態で実行される凸手順をDeepSoIに置き換えることによって達成できる。
論文 参考訳(メタデータ) (2022-03-19T15:05:09Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Softmax Deep Double Deterministic Policy Gradients [37.23518654230526]
連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計し,ソフトマックス・オペレータを単一および二重推定器上に構築する。
論文 参考訳(メタデータ) (2020-10-19T02:52:00Z) - WD3: Taming the Estimation Bias in Deep Reinforcement Learning [7.29018671106362]
我々はTD3アルゴリズムが軽度の仮定で過小評価バイアスをもたらすことを示す。
本稿では, 推定バイアスを除去できる, アンダーライン重み付きアンダーライン重み付きアンダーラインDeepアンダーライン決定性ポリシー勾配 (WD3) を提案する。
論文 参考訳(メタデータ) (2020-06-18T01:28:07Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。