論文の概要: Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2210.01162v1
- Date: Mon, 3 Oct 2022 18:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:08:17.976135
- Title: Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications
- Title(参考訳): 不可能な線形時間論理仕様に対する最小振動連続制御の学習
- Authors: Mingyu Cai, Makai Mann, Zachary Serlin, Kevin Leahy, Cristian-Ioan
Vasile
- Abstract要約: 本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
- 参考スコア(独自算出の注目度): 2.496282558123411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores continuous-time control synthesis for target-driven
navigation to satisfy complex high-level tasks expressed as linear temporal
logic (LTL). We propose a model-free framework using deep reinforcement
learning (DRL) where the underlying dynamic system is unknown (an opaque box).
Unlike prior work, this paper considers scenarios where the given LTL
specification might be infeasible and therefore cannot be accomplished
globally. Instead of modifying the given LTL formula, we provide a general
DRL-based approach to satisfy it with minimal violation.
%\mminline{Need to decide if we're comfortable calling these "guarantees" due
to the stochastic policy. I'm not repeating this comment everywhere that says
"guarantees" but there are multiple places.}
To do this, we transform a previously multi-objective DRL problem, which
requires simultaneous automata satisfaction and minimum violation cost, into a
single objective. By guiding the DRL agent with a sampling-based path planning
algorithm for the potentially infeasible LTL task, the proposed approach
mitigates the myopic tendencies of DRL, which are often an issue when learning
general LTL tasks that can have long or infinite horizons. This is achieved by
decomposing an infeasible LTL formula into several reach-avoid sub-tasks with
shorter horizons, which can be trained in a modular DRL architecture.
Furthermore, we overcome the challenge of the exploration process for DRL in
complex and cluttered environments by using path planners to design rewards
that are dense in the configuration space. The benefits of the presented
approach are demonstrated through testing on various complex nonlinear systems
and compared with state-of-the-art baselines. The Video demonstration can be
found on YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.
- Abstract(参考訳): 本稿では,線形時間論理(LTL)として表される複雑な高次タスクを満たすために,目標駆動ナビゲーションのための連続時間制御合成を提案する。
本稿では,基盤となる動的システムが未知(不透明箱)である深層強化学習(drl)を用いたモデルフリーフレームワークを提案する。
本稿では,従来の研究とは異なり,LTL仕様が実現不可能であり,グローバルに達成できないシナリオについて考察する。
与えられたLTL式を変更する代わりに、最小限の違反で満たすための一般的なDRLベースのアプローチを提供する。
を、確率的なポリシーで呼ぶのが楽しいかどうかを判断するために、%\mminline{Need。
と言うようなコメントをどこにでも繰り返すつもりはありませんが、複数の場所があります。
これを実現するために、我々は、自動的満足度と最小違反コストを同時に要求する従来の多目的DRL問題を単一目的に変換する。
drlエージェントに潜在的に実現不可能なltlタスクのためのサンプリングベースの経路計画アルゴリズムを誘導することにより、提案手法はdrlの近視的傾向を軽減し、これは長地平線や無限地平線を持つ一般的なltlタスクを学習する際に問題となる。
これは、実用不可能なLTL式を、より短い水平線を持ついくつかのリーチアビドサブタスクに分解することで実現される。
さらに,経路プランナを用いて構成空間に密接な報酬を設計することにより,複雑で散在した環境におけるDRL探索の課題を克服する。
提案手法の利点は, 様々な非線形システムのテストにより実証され, 最先端のベースラインと比較できる。
YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.com/YouTubeチャンネルでビデオデモが公開されている。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。