論文の概要: Solving the scalarization issues of Advantage-based Reinforcement
Learning Algorithms
- arxiv url: http://arxiv.org/abs/2004.04120v4
- Date: Fri, 1 Oct 2021 14:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:17:48.399432
- Title: Solving the scalarization issues of Advantage-based Reinforcement
Learning Algorithms
- Title(参考訳): アドバンテージベース強化学習アルゴリズムのスカラー化問題の解法
- Authors: Federico A. Galatolo, Mario G.C.A. Cimino, Gigliola Vaglini
- Abstract要約: 本稿では,Advantage Actor Critic (A2C) 強化学習アルゴリズムにおける多目的最適化問題のスカラー化から生じる問題について検討する。
この論文は、ナイーブなスカラー化によって勾配が重なり合うことを示す。
エントロピー正規化項が制御不能雑音の源となる可能性について論じる。
- 参考スコア(独自算出の注目度): 2.400834442447969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this research, some of the issues that arise from the scalarization of the
multi-objective optimization problem in the Advantage Actor Critic (A2C)
reinforcement learning algorithm are investigated. The paper shows how a naive
scalarization can lead to gradients overlapping. Furthermore, the possibility
that the entropy regularization term can be a source of uncontrolled noise is
discussed. With respect to the above issues, a technique to avoid gradient
overlapping is proposed, while keeping the same loss formulation. Moreover, a
method to avoid the uncontrolled noise, by sampling the actions from
distributions with a desired minimum entropy, is investigated. Pilot
experiments have been carried out to show how the proposed method speeds up the
training. The proposed approach can be applied to any Advantage-based
Reinforcement Learning algorithm.
- Abstract(参考訳): 本研究では,Advantage Actor Critic (A2C) 強化学習アルゴリズムにおいて,多目的最適化問題のスカラー化から生じる問題について検討する。
この論文は、ナイーブなスカラー化によって勾配が重なり合うことを示す。
さらに、エントロピー正規化項が制御不能雑音の源となる可能性についても論じる。
上記の問題については、同じ損失定式化を維持しつつ、勾配重なりを避ける手法が提案されている。
さらに、所望の最小エントロピーで分布から動作をサンプリングすることで、制御不能な騒音を避ける方法を検討した。
提案手法がトレーニングをいかにスピードアップさせるかを示すパイロット実験が実施された。
提案手法は,Advantage-based Reinforcement Learningアルゴリズムに適用可能である。
関連論文リスト
- Dealing with unbounded gradients in stochastic saddle-point optimization [11.7936092899842]
本研究では,凸凹関数のサドル点を求める一階法の性能について検討する。
悪名高い課題は、最適化中に勾配が任意に大きくなることだ。
本稿では,反復を安定化し,有意義な性能保証を与える,シンプルで効果的な正則化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T16:13:49Z) - Regularized Q-Learning with Linear Function Approximation [3.10770247120758]
本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Smoothed functional-based gradient algorithms for off-policy
reinforcement learning: A non-asymptotic viewpoint [9.734033555407406]
オフポリシ強化学習コンテキストにおける制御の問題を解決するための2つのポリシーグラデーションアルゴリズムを提案する。
どちらのアルゴリズムも、スムース機能(SF)ベースの勾配推定スキームを組み込む。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Asymptotic study of stochastic adaptive algorithm in non-convex
landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。
このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文 参考訳(メタデータ) (2020-12-10T12:54:45Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Differentially Private Accelerated Optimization Algorithms [0.7874708385247353]
微分プライベート最適化アルゴリズムの2つのクラスを示す。
最初のアルゴリズムはPolyakのヘビーボール法にインスパイアされている。
アルゴリズムの第2のクラスは、ネステロフの加速勾配法に基づいている。
論文 参考訳(メタデータ) (2020-08-05T08:23:01Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。