論文の概要: Neural-Progressive Hedging: Enforcing Constraints in Reinforcement
Learning with Stochastic Programming
- arxiv url: http://arxiv.org/abs/2202.13436v1
- Date: Sun, 27 Feb 2022 19:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:20:01.950778
- Title: Neural-Progressive Hedging: Enforcing Constraints in Reinforcement
Learning with Stochastic Programming
- Title(参考訳): neural-progressive hedging:確率的プログラミングによる強化学習における制約強化
- Authors: Supriyo Ghosh, Laura Wynter, Shiau Hong Lim and Duc Thien Nguyen
- Abstract要約: 本稿では、強化学習(RL)ポリシーを実行するオンラインフェーズにおいて、プログラミングを活用するフレームワークを提案する。
目的は、条件付きバリュー・アット・リスク(CVaR)のような制約やリスクベースの目標に対する実現性を確保することである。
NPフレームワークは、深いRLや他のベースラインアプローチよりも優れたポリシーを生成することを示す。
- 参考スコア(独自算出の注目度): 8.942831966541231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework, called neural-progressive hedging (NP), that
leverages stochastic programming during the online phase of executing a
reinforcement learning (RL) policy. The goal is to ensure feasibility with
respect to constraints and risk-based objectives such as conditional
value-at-risk (CVaR) during the execution of the policy, using probabilistic
models of the state transitions to guide policy adjustments. The framework is
particularly amenable to the class of sequential resource allocation problems
since feasibility with respect to typical resource constraints cannot be
enforced in a scalable manner. The NP framework provides an alternative that
adds modest overhead during the online phase. Experimental results demonstrate
the efficacy of the NP framework on two continuous real-world tasks: (i) the
portfolio optimization problem with liquidity constraints for financial
planning, characterized by non-stationary state distributions; and (ii) the
dynamic repositioning problem in bike sharing systems, that embodies the class
of supply-demand matching problems. We show that the NP framework produces
policies that are better than deep RL and other baseline approaches, adapting
to non-stationarity, whilst satisfying structural constraints and accommodating
risk measures in the resulting policies. Additional benefits of the NP
framework are ease of implementation and better explainability of the policies.
- Abstract(参考訳): 我々は、強化学習(RL)ポリシーを実行するオンラインフェーズにおいて確率的プログラミングを活用する、NP(Neural-progressive hedging)と呼ばれるフレームワークを提案する。
その目標は、政策実行中の条件付きバリュー・アット・リスク(CVaR)のような制約やリスクに基づく目標に対する実現可能性を確保することであり、政策調整を導くための状態遷移の確率論的モデルを使用することである。
このフレームワークは、典型的なリソース制約に対する実現性はスケーラブルな方法では適用できないため、シーケンシャルなリソース割り当て問題のクラスに特に適している。
NPフレームワークは、オンラインフェーズ中に控えめなオーバーヘッドを追加する代替手段を提供する。
2つの連続現実課題に対するNPフレームワークの有効性を実験的に示す。
(i)非定常状態分布を特徴とする金融計画の流動性制約を伴うポートフォリオ最適化問題
(ii)自転車シェアリングシステムにおける動的再配置問題は,供給需要マッチング問題の類型を具現化したものである。
NPフレームワークは、構造的制約を満たすとともに、結果として生じる政策におけるリスク対策を調整しながら、深いRLや他のベースラインアプローチよりも優れたポリシーを生成し、非定常性に適応することを示す。
NPフレームワークのその他の利点は、実装の容易さとポリシーの説明可能性の改善である。
関連論文リスト
- Convex Regularization and Convergence of Policy Gradient Flows under Safety Constraints [0.2621434923709917]
本稿では, ほぼ安全制約のある無限水平動的決定過程における強化学習について検討する。
我々は、報酬とパラメータの正規化を組み合わせた2つの規則化されたRLフレームワークを、連続的な状態-作用空間内でこれらの制約に対処するために検討する。
論文 参考訳(メタデータ) (2024-11-28T15:04:43Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming
for Policy Optimization in Mixed Discrete-Continuous MDPs [23.87856533426793]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理や貯水池のシステム管理など,多様な分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - DNN-based Policies for Stochastic AC OPF [7.551130027327462]
最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって不確実性を処理するメカニズムを提供する。
我々は、不確実性に応じてジェネレータのディスパッチ決定を予測するディープニューラルネットワーク(DNN)ベースのポリシーを策定した。
より単純な政策に対するDNNポリシーの利点と、安全限界を強制し、ほぼ最適な解決策を生み出す上での有効性を実証した。
論文 参考訳(メタデータ) (2021-12-04T22:26:27Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。