Fugu-MT 論文翻訳(概要): Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation

論文の概要: Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation

arxiv url: http://arxiv.org/abs/2201.08504v1
Date: Fri, 21 Jan 2022 00:56:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-24 13:29:06.455537
Title: Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation
Title（参考訳）: ラグランジュ緩和を用いた信号時間論理制約下の深部強化学習
Authors: Junya Ikemoto and Toshimitsu Ushio
Abstract要約: 一般的には,決定に制約を課すことができる。時間的高次タスクを完了させるために制約のある最適決定問題を考える。ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) has attracted much attention as an approach to solve sequential decision making problems without mathematical models of systems or environments. In general, a constraint may be imposed on the decision making. In this study, we consider the optimal decision making problems with constraints to complete temporal high-level tasks in the continuous state-action domain. We describe the constraints using signal temporal logic (STL), which is useful for time sensitive control tasks since it can specify continuous signals within a bounded time interval. To deal with the STL constraints, we introduce an extended constrained Markov decision process (CMDP), which is called a $\tau$-CMDP. We formulate the STL constrained optimal decision making problem as the $\tau$-CMDP and propose a two-phase constrained DRL algorithm using the Lagrangian relaxation method. Through simulations, we also demonstrate the learning performance of the proposed algorithm.
Abstract（参考訳）: 深部強化学習(DRL)は、システムや環境の数学的モデルなしで逐次意思決定問題を解決するアプローチとして多くの注目を集めている。一般に、意思決定に制約が課せられることがある。本研究では,連続状態行動領域における時間的ハイレベルタスクを完遂するための制約を伴う最適意思決定問題を考える。本稿では,信号時相論理(STL)を用いた制約について述べる。これは時間に敏感な制御タスクにおいて,境界時間間隔内で連続的な信号を指定することができるため有用である。 STL制約に対処するため,拡張制約付きマルコフ決定プロセス(CMDP)を導入し,これを$\tau$-CMDPと呼ぶ。本稿では,STL制約の最適決定問題を$\tau$-CMDPとして定式化し,ラグランジアン緩和法を用いて2相制約DRLアルゴリズムを提案する。また,シミュレーションにより,提案アルゴリズムの学習性能を実証する。

関連論文リスト

Regret-Free Reinforcement Learning for LTL Specifications [6.342676126028222]
強化学習は、未知のダイナミクスを持つシステムの最適制御ポリシーを学習するための有望な方法である。現在のRLベースの手法は保証のみを提供しており、学習フェーズにおける過渡的なパフォーマンスについての洞察を与えていない。マルコフ決定プロセス上の仕様の一般的なクラスに対処するコントローラを学習するための,最初の後悔のないオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-18T20:01:45Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints with Time Windows [0.0]
本稿では,時間窓との複雑な時間的制約下での強化学習(RL)のための自動理論的アプローチを提案する。制約満足度の結果の確率に関する理論的保証を提供する。また,ロボットが環境を探索して高次領域を探索するシナリオにおいて,数値的な結果も提供する。
論文参考訳（メタデータ） (2023-07-29T06:47:14Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。 Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。 $mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文参考訳（メタデータ） (2022-08-30T08:44:15Z)
Model-Free Reinforcement Learning for Optimal Control of MarkovDecision Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文参考訳（メタデータ） (2021-09-27T22:44:55Z)
Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。深層強化学習(DRL)に基づくフレームワークを開発した。 DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文参考訳（メタデータ） (2021-09-26T11:27:12Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。 LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文参考訳（メタデータ） (2020-07-06T05:13:20Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。