Fugu-MT 論文翻訳(概要): A Dynamic Penalty Function Approach for Constraints-Handling in Reinforcement Learning

論文の概要: A Dynamic Penalty Function Approach for Constraints-Handling in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2012.11790v2
Date: Wed, 31 Mar 2021 06:00:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 07:15:52.198228
Title: A Dynamic Penalty Function Approach for Constraints-Handling in Reinforcement Learning
Title（参考訳）: 強化学習における制約ハンジングのための動的ペナルティ関数アプローチ
Authors: Haeun Yoo, Victor M. Zavala, Jay H. Lee
Abstract要約: 本研究では,制約付き最適制御問題の解法としてReinforcement Learning (RL) を用いる。ニューラルネットワークをトレーニングして値(あるいはQ)関数を学習する際、制約境界における関数値の急激な変化に起因する計算問題に遭遇することができる。この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reinforcement learning (RL) is attracting attention as an effective way to solve sequential optimization problems that involve high dimensional state/action space and stochastic uncertainties. Many such problems involve constraints expressed by inequality constraints. This study focuses on using RL to solve constrained optimal control problems. Most RL application studies have dealt with inequality constraints by adding soft penalty terms for violating the constraints to the reward function. However, while training neural networks to learn the value (or Q) function, one can run into computational issues caused by the sharp change in the function value at the constraint boundary due to the large penalty imposed. This difficulty during training can lead to convergence problems and ultimately lead to poor closed-loop performance. To address this issue, this study proposes a dynamic penalty (DP) approach where the penalty factor is gradually and systematically increased during training as the iteration episodes proceed. We first examine the ability of a neural network to represent a value function when uniform, linear, or DP functions are added to prevent constraint violation. The agent trained by a Deep Q Network (DQN) algorithm with the DP function approach was compared with agents with other constant penalty functions in a simple vehicle control problem. Results show that the proposed approach can improve the neural network approximation accuracy and provide faster convergence when close to a solution.
Abstract（参考訳）: 強化学習(RL)は,高次元状態/動作空間と確率的不確実性を含む逐次最適化問題を解く効果的な方法として注目されている。そのような問題の多くは不等式制約によって表される制約を含む。本研究では,制約付き最適制御問題の解法にRLを用いることに焦点をあてる。ほとんどのRL応用研究は、報酬関数に制約を違反するソフトペナルティ項を追加することで不等式制約に対処してきた。しかしながら、ニューラルネットワークを訓練して値(またはq)関数を学ぶ一方で、課せられる大きなペナルティによって制約境界における関数値の急激な変化によって生じる計算問題に遭遇することができる。この訓練中の難易度は収束問題につながり、最終的にはクローズドループ性能が低下する。そこで本研究では,反復エピソードが進行するにつれて,ペナルティ係数が徐々に,体系的に増加する動的ペナルティ(DP)アプローチを提案する。まず,制約違反を防止するために,一様関数,線形関数,dp関数を加えた場合の値関数を表現するニューラルネットワークの能力について検討する。 dp関数を用いたディープqネットワーク (dqn) アルゴリズムで訓練したエージェントを, 車両制御問題において他の一定のペナルティ関数を持つエージェントと比較した。その結果,提案手法はニューラルネットワークの近似精度を向上し,解に近い場合により高速に収束できることがわかった。

関連論文リスト

Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:48Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
A Penalty-Based Guardrail Algorithm for Non-Decreasing Optimization with Inequality Constraints [1.5498250598583487]
伝統的な数学的プログラミングの解法は制約付き最小化問題を解くのに長い計算時間を必要とする。ペナルティに基づくガードレールアルゴリズム(PGA)を提案する。
論文参考訳（メタデータ） (2024-05-03T10:37:34Z)
Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。 CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-03-21T16:02:52Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Adaptive Self-supervision Algorithms for Physics-informed Neural Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文参考訳（メタデータ） (2022-07-08T18:17:06Z)
Deep Unsupervised Learning for Generalized Assignment Problems: A Case-Study of User-Association in Wireless Networks [11.42707683459227]
本研究では,一般化代入問題(GAP)を時間効率良く解くために,DUL(Deep Unsupervised Learning)手法を提案する。特に、カスタマイズされた損失関数を用いてディープニューラルネットワーク(DNN)のトレーニングを容易にする新しいアプローチを提案する。数値実験の結果,提案手法は最適に近い結果をもたらし,時間・複雑さが著しく低下することが示された。
論文参考訳（メタデータ） (2021-03-26T16:07:02Z)
Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文参考訳（メタデータ） (2020-11-02T22:43:30Z)
Chance-Constrained Control with Lexicographic Deep Reinforcement Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文参考訳（メタデータ） (2020-10-19T13:09:14Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Unsupervised Deep Learning for Optimizing Wireless Systems with Instantaneous and Statistic Constraints [29.823814915538463]
我々は、教師なしのディープラーニングを用いて、瞬時的制約と統計的制約の両方で、双方の問題を解決する統一的な枠組みを確立する。教師なし学習は、最適政策の違反確率と近似精度の観点から教師あり学習より優れていることを示す。
論文参考訳（メタデータ） (2020-05-30T13:37:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。