論文の概要: Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.15341v1
- Date: Sun, 26 Nov 2023 15:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:08:06.192741
- Title: Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning
- Title(参考訳): 強化学習における任意制約を伴う確率的行動の生成モデル
- Authors: Changyu Chen, Ramesha Karunasena, Thanh Hong Nguyen, Arunesh Sinha,
Pradeep Varakantham
- Abstract要約: 強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 25.342811509665097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many problems in Reinforcement Learning (RL) seek an optimal policy with
large discrete multidimensional yet unordered action spaces; these include
problems in randomized allocation of resources such as placements of multiple
security resources and emergency response units, etc. A challenge in this
setting is that the underlying action space is categorical (discrete and
unordered) and large, for which existing RL methods do not perform well.
Moreover, these problems require validity of the realized action (allocation);
this validity constraint is often difficult to express compactly in a closed
mathematical form. The allocation nature of the problem also prefers stochastic
optimal policies, if one exists. In this work, we address these challenges by
(1) applying a (state) conditional normalizing flow to compactly represent the
stochastic policy -- the compactness arises due to the network only producing
one sampled action and the corresponding log probability of the action, which
is then used by an actor-critic method; and (2) employing an invalid action
rejection method (via a valid action oracle) to update the base policy. The
action rejection is enabled by a modified policy gradient that we derive.
Finally, we conduct extensive experiments to show the scalability of our
approach compared to prior methods and the ability to enforce arbitrary
state-conditional constraints on the support of the distribution of actions in
any state.
- Abstract(参考訳): 強化学習(rl)の多くの問題は、大きな離散的多次元かつ無秩序なアクション空間を持つ最適方針を求めており、複数のセキュリティリソースの配置や緊急対応ユニットなどのリソースのランダム配置の問題を含んでいる。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きく、既存のRL法ではうまく機能しないことである。
さらに、これらの問題は実効作用(配置)の妥当性を必要とし、この妥当性制約はしばしば閉じた数学的形式でコンパクトに表現することが困難である。
問題の割り当ての性質は、もし存在するならば、確率的最適政策を好む。
本稿では,(1)(状態)条件付き正規化フローを適用して確率的ポリシーをコンパクトに表現すること -- ネットワークが1つのサンプルアクションとそれに対応するアクションのログ確率を生成することによって生じるコンパクト性 -- をアクタ-クリティックな方法で使用すること,(2)ベースポリシーを更新するために無効なアクション拒否法(有効なアクションオラクルによる)を使用することによって,これらの課題に対処する。
アクション拒否は、私たちが導出する変更されたポリシー勾配によって実現されます。
最後に、従来の手法と比較して、我々のアプローチのスケーラビリティと、任意の状態におけるアクションの分布のサポートに任意の状態条件制約を適用する能力を示すための広範な実験を行う。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。