論文の概要: FlowPG: Action-constrained Policy Gradient with Normalizing Flows
- arxiv url: http://arxiv.org/abs/2402.05149v1
- Date: Wed, 7 Feb 2024 11:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:43:22.677221
- Title: FlowPG: Action-constrained Policy Gradient with Normalizing Flows
- Title(参考訳): flowpg: フローを正規化するアクション制約付きポリシー勾配
- Authors: Janaka Chathuranga Brahmanage, Jiajing Ling, Akshat Kumar
- Abstract要約: ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
- 参考スコア(独自算出の注目度): 14.98383953401637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action-constrained reinforcement learning (ACRL) is a popular approach for
solving safety-critical and resource-allocation related decision making
problems. A major challenge in ACRL is to ensure agent taking a valid action
satisfying constraints in each RL step. Commonly used approach of using a
projection layer on top of the policy network requires solving an optimization
program which can result in longer training time, slow convergence, and zero
gradient problem. To address this, first we use a normalizing flow model to
learn an invertible, differentiable mapping between the feasible action space
and the support of a simple distribution on a latent variable, such as
Gaussian. Second, learning the flow model requires sampling from the feasible
action space, which is also challenging. We develop multiple methods, based on
Hamiltonian Monte-Carlo and probabilistic sentential decision diagrams for such
action sampling for convex and non-convex constraints. Third, we integrate the
learned normalizing flow with the DDPG algorithm. By design, a well-trained
normalizing flow will transform policy output into a valid action without
requiring an optimization solver. Empirically, our approach results in
significantly fewer constraint violations (upto an order-of-magnitude for
several instances) and is multiple times faster on a variety of continuous
control tasks.
- Abstract(参考訳): ACRL(Action-Constrained reinforcement learning)は、安全クリティカルおよびリソース割り当てに関連する意思決定問題を解決するための一般的な手法である。
ACRLにおける大きな課題は、各RLステップの制約を満たす有効なアクションを取るエージェントを確保することである。
ポリシネットワーク上でプロジェクション層を使用する場合、一般的に使用されるアプローチでは、トレーニング時間が長くなり、収束が遅く、勾配問題もゼロになる最適化プログラムの解決が必要となる。
これを解決するために、まず正規化フローモデルを用いて、実現可能な作用空間とガウスのような潜在変数上の単純分布のサポートの間の可逆微分可能写像を学習する。
第二に、フローモデルを学ぶには、実行可能なアクション空間からサンプリングする必要がある。
本研究では, 凸および非凸制約に対する動作サンプリングのためのハミルトニアンモンテカルロと確率的センテンシャル決定図に基づいて, 複数の手法を開発した。
第3に、学習した正規化フローとDDPGアルゴリズムを統合する。
設計により、よく訓練された正規化フローは、最適化解法を必要とせず、ポリシー出力を有効なアクションに変換する。
経験上、このアプローチは制約違反(複数のインスタンスの桁違いな値まで)をかなり少なくし、さまざまな連続制御タスクで複数倍高速になります。
関連論文リスト
- Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Toward Rapid, Optimal, and Feasible Power Dispatch through Generalized
Neural Mapping [0.0]
パワーディスパッチ問題を解決するための学習ベースアプローチとして LOOP-LC 2.0 を提案する。
LOOP-LC 2.0フレームワークの顕著な利点は、ソリューションのほぼ最適性と厳密な実現性を保証する能力である。
本稿では, LOOP-LC 2.0法の有効性を, 学習速度, 計算時間, 最適性, ソリューション実現可能性の観点から示す。
論文 参考訳(メタデータ) (2023-11-08T17:02:53Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。