論文の概要: Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.15341v1
- Date: Sun, 26 Nov 2023 15:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:08:06.192741
- Title: Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning
- Title(参考訳): 強化学習における任意制約を伴う確率的行動の生成モデル
- Authors: Changyu Chen, Ramesha Karunasena, Thanh Hong Nguyen, Arunesh Sinha,
Pradeep Varakantham
- Abstract要約: 強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 25.342811509665097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many problems in Reinforcement Learning (RL) seek an optimal policy with
large discrete multidimensional yet unordered action spaces; these include
problems in randomized allocation of resources such as placements of multiple
security resources and emergency response units, etc. A challenge in this
setting is that the underlying action space is categorical (discrete and
unordered) and large, for which existing RL methods do not perform well.
Moreover, these problems require validity of the realized action (allocation);
this validity constraint is often difficult to express compactly in a closed
mathematical form. The allocation nature of the problem also prefers stochastic
optimal policies, if one exists. In this work, we address these challenges by
(1) applying a (state) conditional normalizing flow to compactly represent the
stochastic policy -- the compactness arises due to the network only producing
one sampled action and the corresponding log probability of the action, which
is then used by an actor-critic method; and (2) employing an invalid action
rejection method (via a valid action oracle) to update the base policy. The
action rejection is enabled by a modified policy gradient that we derive.
Finally, we conduct extensive experiments to show the scalability of our
approach compared to prior methods and the ability to enforce arbitrary
state-conditional constraints on the support of the distribution of actions in
any state.
- Abstract(参考訳): 強化学習(rl)の多くの問題は、大きな離散的多次元かつ無秩序なアクション空間を持つ最適方針を求めており、複数のセキュリティリソースの配置や緊急対応ユニットなどのリソースのランダム配置の問題を含んでいる。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きく、既存のRL法ではうまく機能しないことである。
さらに、これらの問題は実効作用(配置)の妥当性を必要とし、この妥当性制約はしばしば閉じた数学的形式でコンパクトに表現することが困難である。
問題の割り当ての性質は、もし存在するならば、確率的最適政策を好む。
本稿では,(1)(状態)条件付き正規化フローを適用して確率的ポリシーをコンパクトに表現すること -- ネットワークが1つのサンプルアクションとそれに対応するアクションのログ確率を生成することによって生じるコンパクト性 -- をアクタ-クリティックな方法で使用すること,(2)ベースポリシーを更新するために無効なアクション拒否法(有効なアクションオラクルによる)を使用することによって,これらの課題に対処する。
アクション拒否は、私たちが導出する変更されたポリシー勾配によって実現されます。
最後に、従来の手法と比較して、我々のアプローチのスケーラビリティと、任意の状態におけるアクションの分布のサポートに任意の状態条件制約を適用する能力を示すための広範な実験を行う。
関連論文リスト
- Multi-Constraint Safe RL with Objective Suppression for Safety-Critical Applications [73.58451824894568]
より強力な一様制約型MDP(UCMDP)モデルを用いたマルチ制約問題について述べる。
そこで我々は,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - A Prescriptive Dirichlet Power Allocation Policy with Deep Reinforcement
Learning [6.003234406806134]
本研究では,連続的なアロケーションタスクに対するディリクレポリシを提案し,そのポリシー勾配のバイアスと分散を分析した。
ディリクレポリシはバイアスフリーであり,ガウス-ソフトマックスポリシよりもはるかに高速な収束と性能を提供することを示した。
実験の結果, 最適動作を規定し, 多出力電源システムの効率と持続可能性を向上させる可能性が示された。
論文 参考訳(メタデータ) (2022-01-20T20:41:04Z) - Addressing Action Oscillations through Learning Policy Inertia [26.171039226334504]
Policy Inertia Controller (PIC) は、既製のDRLアルゴリズムの汎用的なプラグインフレームワークとして機能する。
PIC強化政策の一般的なトレーニングアルゴリズムとしてNested Policy Iterationを提案する。
DRLアルゴリズム、すなわちNested Soft Actor-Criticを導出する。
論文 参考訳(メタデータ) (2021-03-03T09:59:43Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。