Fugu-MT 論文翻訳(概要): Solving the scalarization issues of Advantage-based Reinforcement Learning Algorithms

論文の概要: Solving the scalarization issues of Advantage-based Reinforcement Learning Algorithms

arxiv url: http://arxiv.org/abs/2004.04120v4
Date: Fri, 1 Oct 2021 14:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 08:17:48.399432
Title: Solving the scalarization issues of Advantage-based Reinforcement Learning Algorithms
Title（参考訳）: アドバンテージベース強化学習アルゴリズムのスカラー化問題の解法
Authors: Federico A. Galatolo, Mario G.C.A. Cimino, Gigliola Vaglini
Abstract要約: 本稿では,Advantage Actor Critic (A2C) 強化学習アルゴリズムにおける多目的最適化問題のスカラー化から生じる問題について検討する。この論文は、ナイーブなスカラー化によって勾配が重なり合うことを示す。エントロピー正規化項が制御不能雑音の源となる可能性について論じる。
参考スコア（独自算出の注目度）: 2.400834442447969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this research, some of the issues that arise from the scalarization of the multi-objective optimization problem in the Advantage Actor Critic (A2C) reinforcement learning algorithm are investigated. The paper shows how a naive scalarization can lead to gradients overlapping. Furthermore, the possibility that the entropy regularization term can be a source of uncontrolled noise is discussed. With respect to the above issues, a technique to avoid gradient overlapping is proposed, while keeping the same loss formulation. Moreover, a method to avoid the uncontrolled noise, by sampling the actions from distributions with a desired minimum entropy, is investigated. Pilot experiments have been carried out to show how the proposed method speeds up the training. The proposed approach can be applied to any Advantage-based Reinforcement Learning algorithm.
Abstract（参考訳）: 本研究では,Advantage Actor Critic (A2C) 強化学習アルゴリズムにおいて,多目的最適化問題のスカラー化から生じる問題について検討する。この論文は、ナイーブなスカラー化によって勾配が重なり合うことを示す。さらに、エントロピー正規化項が制御不能雑音の源となる可能性についても論じる。上記の問題については、同じ損失定式化を維持しつつ、勾配重なりを避ける手法が提案されている。さらに、所望の最小エントロピーで分布から動作をサンプリングすることで、制御不能な騒音を避ける方法を検討した。提案手法がトレーニングをいかにスピードアップさせるかを示すパイロット実験が実施された。提案手法は,Advantage-based Reinforcement Learningアルゴリズムに適用可能である。

関連論文リスト

Dealing with unbounded gradients in stochastic saddle-point optimization [9.983014605039658]
本研究では,凸凹関数のサドル点を求める一階法の性能について検討する。悪名高い課題は、最適化中に勾配が任意に大きくなることだ。本稿では,反復を安定化し,有意義な性能保証を与える,シンプルで効果的な正則化手法を提案する。
論文参考訳（メタデータ） (2024-02-21T16:13:49Z)
On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2022-02-28T13:01:04Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文参考訳（メタデータ） (2021-01-06T17:06:42Z)
Asymptotic study of stochastic adaptive algorithm in non-convex landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文参考訳（メタデータ） (2020-12-10T12:54:45Z)
Learning to solve TV regularized problems with unrolled algorithms [18.241062505073234]
トータル・バージョニング(Total Variation、TV)は、一方向定値信号を促進する一般的な正規化戦略である。そこで我々は,2つのアプローチを開発し,そのメリットと限界を記述し,反復的な手順よりも実際に改善できる体制について議論する。
論文参考訳（メタデータ） (2020-10-19T14:19:02Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Differentially Private Accelerated Optimization Algorithms [0.7874708385247353]
微分プライベート最適化アルゴリズムの2つのクラスを示す。最初のアルゴリズムはPolyakのヘビーボール法にインスパイアされている。アルゴリズムの第2のクラスは、ネステロフの加速勾配法に基づいている。
論文参考訳（メタデータ） (2020-08-05T08:23:01Z)
Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文参考訳（メタデータ） (2020-07-01T18:43:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。