論文の概要: A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2105.09716v1
- Date: Thu, 20 May 2021 13:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:24:01.674429
- Title: A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning
- Title(参考訳): 強化学習のための確率的複合拡張ラグランジアン法
- Authors: Yongfeng Li, Mingming Zhao, Weijie Chen, and Zaiwen Wen
- Abstract要約: 深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
- 参考スコア(独自算出の注目度): 9.204659134755795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the linear programming (LP) formulation for deep
reinforcement learning. The number of the constraints depends on the size of
state and action spaces, which makes the problem intractable in large or
continuous environments. The general augmented Lagrangian method suffers the
double-sampling obstacle in solving the LP. Namely, the conditional
expectations originated from the constraint functions and the quadratic
penalties in the augmented Lagrangian function impose difficulties in sampling
and evaluation. Motivated from the updates of the multipliers, we overcome the
obstacles in minimizing the augmented Lagrangian function by replacing the
intractable conditional expectations with the multipliers. Therefore, a deep
parameterized augment Lagrangian method is proposed. Furthermore, the
replacement provides a promising breakthrough to integrate the two steps in the
augmented Lagrangian method into a single constrained problem. A general
theoretical analysis shows that the solutions generated from a sequence of the
constrained optimizations converge to the optimal solution of the LP if the
error is controlled properly. A theoretical analysis on the quadratic penalty
algorithm under neural tangent kernel setting shows the residual can be
arbitrarily small if the parameter in network and optimization algorithm is
chosen suitably. Preliminary experiments illustrate that our method is
competitive to other state-of-the-art algorithms.
- Abstract(参考訳): 本稿では,深層強化学習のための線形プログラミング(LP)の定式化について考察する。
制約の数は状態空間と行動空間のサイズに依存するため、大きな環境や連続的な環境では問題に難易度が生じる。
一般拡張ラグランジアン法はlpの解法において二重サンプリング障害に苦しむ。
すなわち、条件付き期待は、拡張ラグランジュ関数の制約関数と二次罰がサンプリングと評価に困難を課すことから生じる。
乗算器の更新からモチベーションを得た結果、拡張ラグランジュ関数の最小化における障害を克服し、難解な条件付き期待を乗算器に置き換える。
そこで, 深いパラメータ化拡張ラグランジアン法を提案する。
さらに、この置換は拡張ラグランジアン法の2つのステップを単一の制約付き問題に統合する有望なブレークスルーを提供する。
一般化理論解析により、制約付き最適化の列から生成される解は、誤差が適切に制御された場合、LPの最適解に収束することを示した。
ニューラルネットワークカーネル設定下での2次ペナルティアルゴリズムの理論解析は、ネットワークおよび最適化アルゴリズムのパラメータが好適に選択された場合、残余を任意に小さくすることができることを示している。
予備実験により,本手法は他の最先端アルゴリズムと競合することを示した。
関連論文リスト
- Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Learning Lagrangian Multipliers for the Travelling Salesman Problem [12.968608204035611]
本稿では,グラフニューラルネットワークの能力を活用して問題構造を利用する,革新的な教師なし学習手法を提案する。
この手法を、旅行セールスマン問題に対する有名なヘルド・カルプ・ラグランジアン緩和に適用する。
実現可能な解を見つけることに焦点を当てた既存の文献の多くとは対照的に、我々のアプローチは両面で動作し、学習が最適性の証明を加速できることを示す。
論文 参考訳(メタデータ) (2023-12-22T17:09:34Z) - Predicting Accurate Lagrangian Multipliers for Mixed Integer Linear
Programs [2.938522932876799]
我々は、降下を回避し、局所的な最適化を効果的に減らし、深層学習アプローチを導入する。
提案手法は, 連続緩和とラグランジアン境界とのギャップの最大85%を解消し, 降下に基づくラグランジアン法において, 高品質なウォームスタートを提供することを示す。
論文 参考訳(メタデータ) (2023-10-23T07:53:47Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Conservative Distributional Reinforcement Learning with Safety
Constraints [22.49025480735792]
安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。
従来の非政治アルゴリズムは、制約付き最適化問題をラグランジアン緩和手法を導入して、対応する制約なしの双対問題に変換する。
本稿では,ポストリオ政策最適化による保守的分布最大化という,非政治的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-18T19:45:43Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Conditional gradient methods for stochastically constrained convex
minimization [54.53786593679331]
構造凸最適化問題に対する条件勾配に基づく2つの新しい解法を提案する。
私たちのフレームワークの最も重要な特徴は、各イテレーションで制約のサブセットだけが処理されることです。
提案アルゴリズムは, 条件勾配のステップとともに, 分散の低減と平滑化に頼り, 厳密な収束保証を伴っている。
論文 参考訳(メタデータ) (2020-07-07T21:26:35Z) - Inexact and Stochastic Generalized Conditional Gradient with Augmented
Lagrangian and Proximal Step [2.0196229393131726]
我々は著者の以前の論文で開発されたCGALPアルゴリズムの不正確さとバージョンを分析した。
これにより、いくつかの勾配、項、および/または線形最小化オラクルを不正確な方法で計算することができる。
ラグランジアンのアフィン制約の最適性と実現可能性への収束を示す。
論文 参考訳(メタデータ) (2020-05-11T14:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。