論文の概要: Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints
with Time Windows
- arxiv url: http://arxiv.org/abs/2307.15910v1
- Date: Sat, 29 Jul 2023 06:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:45:13.318472
- Title: Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints
with Time Windows
- Title(参考訳): 時間窓を用いた確率的時空間制約下での強化学習
- Authors: Xiaoshan Lin, Abbasali Koochakzadeh, Yasin Yazicioglu, Derya Aksaray
- Abstract要約: 本稿では,時間窓との複雑な時間的制約下での強化学習(RL)のための自動理論的アプローチを提案する。
制約満足度の結果の確率に関する理論的保証を提供する。
また,ロボットが環境を探索して高次領域を探索するシナリオにおいて,数値的な結果も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an automata-theoretic approach for reinforcement learning (RL)
under complex spatio-temporal constraints with time windows. The problem is
formulated using a Markov decision process under a bounded temporal logic
constraint. Different from existing RL methods that can eventually learn
optimal policies satisfying such constraints, our proposed approach enforces a
desired probability of constraint satisfaction throughout learning. This is
achieved by translating the bounded temporal logic constraint into a total
automaton and avoiding "unsafe" actions based on the available prior
information regarding the transition probabilities, i.e., a pair of upper and
lower bounds for each transition probability. We provide theoretical guarantees
on the resulting probability of constraint satisfaction. We also provide
numerical results in a scenario where a robot explores the environment to
discover high-reward regions while fulfilling some periodic pick-up and
delivery tasks that are encoded as temporal logic constraints.
- Abstract(参考訳): 時間窓を持つ複雑な時空間制約下での強化学習(rl)のための自動理論手法を提案する。
この問題は、境界時間論理制約の下でマルコフ決定プロセスを用いて定式化される。
このような制約を満たす最適ポリシーを最終的に学習できる既存のRL法とは異なり、本提案手法は学習を通して制約満足度が望ましい確率を強制する。
これは、有界時相論理制約を全オートマトンに翻訳し、遷移確率、すなわち各遷移確率に対する上下一対の境界に関する利用可能な事前情報に基づいて「安全でない」動作を避けることによって達成される。
制約満足度の結果の確率に関する理論的保証を提供する。
また,ロボットが時間的論理制約としてエンコードされた周期的ピックアップ・デリバリータスクを遂行しながら,ハイリワード領域を発見する環境を探索するシナリオにおいて,数値的な結果を提供する。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning [23.76366118253271]
現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。
本稿では,制約付きRLアルゴリズムCaTとしてConstraintsを提案する。
ビデオとコードはhttps://constraints-as-termminations.ioで公開されている。
論文 参考訳(メタデータ) (2024-03-27T17:03:31Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes [5.471640959988549]
まず、部分的に観測可能なマルコフ決定過程に対する最適制御理論を導入する。
累積報酬を最大化するポリシを合成するための構造化手法を提供する。
次に、論理的に制約されたマルチエージェント設定のための最適制御フレームワークを設計するために、このアプローチを構築します。
論文 参考訳(メタデータ) (2023-05-24T05:15:36Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-21T00:56:25Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Constrained Reinforcement Learning for Dynamic Optimization under
Uncertainty [1.5797349391370117]
動的リアルタイム最適化(DRTO)は、最適動作条件をリアルタイムに計算する必要があるという事実から難しい課題である。
DRTOの産業応用における主要なボトルネックは、不確実性の存在である。
これらの課題に対応するために,制約付き強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-04T10:17:35Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。