論文の概要: Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation
- arxiv url: http://arxiv.org/abs/2201.08504v1
- Date: Fri, 21 Jan 2022 00:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 13:29:06.455537
- Title: Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation
- Title(参考訳): ラグランジュ緩和を用いた信号時間論理制約下の深部強化学習
- Authors: Junya Ikemoto and Toshimitsu Ushio
- Abstract要約: 一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has attracted much attention as an approach
to solve sequential decision making problems without mathematical models of
systems or environments. In general, a constraint may be imposed on the
decision making. In this study, we consider the optimal decision making
problems with constraints to complete temporal high-level tasks in the
continuous state-action domain. We describe the constraints using signal
temporal logic (STL), which is useful for time sensitive control tasks since it
can specify continuous signals within a bounded time interval. To deal with the
STL constraints, we introduce an extended constrained Markov decision process
(CMDP), which is called a $\tau$-CMDP. We formulate the STL constrained optimal
decision making problem as the $\tau$-CMDP and propose a two-phase constrained
DRL algorithm using the Lagrangian relaxation method. Through simulations, we
also demonstrate the learning performance of the proposed algorithm.
- Abstract(参考訳): 深部強化学習(DRL)は、システムや環境の数学的モデルなしで逐次意思決定問題を解決するアプローチとして多くの注目を集めている。
一般に、意思決定に制約が課せられることがある。
本研究では,連続状態行動領域における時間的ハイレベルタスクを完遂するための制約を伴う最適意思決定問題を考える。
本稿では,信号時相論理(STL)を用いた制約について述べる。これは時間に敏感な制御タスクにおいて,境界時間間隔内で連続的な信号を指定することができるため有用である。
STL制約に対処するため,拡張制約付きマルコフ決定プロセス(CMDP)を導入し,これを$\tau$-CMDPと呼ぶ。
本稿では,STL制約の最適決定問題を$\tau$-CMDPとして定式化し,ラグランジアン緩和法を用いて2相制約DRLアルゴリズムを提案する。
また,シミュレーションにより,提案アルゴリズムの学習性能を実証する。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints
with Time Windows [0.0]
本稿では,時間窓との複雑な時間的制約下での強化学習(RL)のための自動理論的アプローチを提案する。
制約満足度の結果の確率に関する理論的保証を提供する。
また,ロボットが環境を探索して高次領域を探索するシナリオにおいて,数値的な結果も提供する。
論文 参考訳(メタデータ) (2023-07-29T06:47:14Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。