論文の概要: Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2210.01162v2
- Date: Thu, 6 Oct 2022 02:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:47:39.061373
- Title: Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications
- Title(参考訳): 不可能な線形時間論理仕様に対する最小振動連続制御の学習
- Authors: Mingyu Cai, Makai Mann, Zachary Serlin, Kevin Leahy, Cristian-Ioan
Vasile
- Abstract要約: 本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
- 参考スコア(独自算出の注目度): 2.496282558123411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores continuous-time control synthesis for target-driven
navigation to satisfy complex high-level tasks expressed as linear temporal
logic (LTL). We propose a model-free framework using deep reinforcement
learning (DRL) where the underlying dynamic system is unknown (an opaque box).
Unlike prior work, this paper considers scenarios where the given LTL
specification might be infeasible and therefore cannot be accomplished
globally. Instead of modifying the given LTL formula, we provide a general
DRL-based approach to satisfy it with minimal violation.
%\mminline{Need to decide if we're comfortable calling these "guarantees" due
to the stochastic policy. I'm not repeating this comment everywhere that says
"guarantees" but there are multiple places.}
To do this, we transform a previously multi-objective DRL problem, which
requires simultaneous automata satisfaction and minimum violation cost, into a
single objective. By guiding the DRL agent with a sampling-based path planning
algorithm for the potentially infeasible LTL task, the proposed approach
mitigates the myopic tendencies of DRL, which are often an issue when learning
general LTL tasks that can have long or infinite horizons. This is achieved by
decomposing an infeasible LTL formula into several reach-avoid sub-tasks with
shorter horizons, which can be trained in a modular DRL architecture.
Furthermore, we overcome the challenge of the exploration process for DRL in
complex and cluttered environments by using path planners to design rewards
that are dense in the configuration space. The benefits of the presented
approach are demonstrated through testing on various complex nonlinear systems
and compared with state-of-the-art baselines. The Video demonstration can be
found on YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.
- Abstract(参考訳): 本稿では,線形時間論理(LTL)として表される複雑な高次タスクを満たすために,目標駆動ナビゲーションのための連続時間制御合成を提案する。
本稿では,基盤となる動的システムが未知(不透明箱)である深層強化学習(drl)を用いたモデルフリーフレームワークを提案する。
本稿では,従来の研究とは異なり,LTL仕様が実現不可能であり,グローバルに達成できないシナリオについて考察する。
与えられたLTL式を変更する代わりに、最小限の違反で満たすための一般的なDRLベースのアプローチを提供する。
を、確率的なポリシーで呼ぶのが楽しいかどうかを判断するために、%\mminline{Need。
と言うようなコメントをどこにでも繰り返すつもりはありませんが、複数の場所があります。
これを実現するために、我々は、自動的満足度と最小違反コストを同時に要求する従来の多目的DRL問題を単一目的に変換する。
drlエージェントに潜在的に実現不可能なltlタスクのためのサンプリングベースの経路計画アルゴリズムを誘導することにより、提案手法はdrlの近視的傾向を軽減し、これは長地平線や無限地平線を持つ一般的なltlタスクを学習する際に問題となる。
これは、実用不可能なLTL式を、より短い水平線を持ついくつかのリーチアビドサブタスクに分解することで実現される。
さらに,経路プランナを用いて構成空間に密接な報酬を設計することにより,複雑で散在した環境におけるDRL探索の課題を克服する。
提案手法の利点は, 様々な非線形システムのテストにより実証され, 最先端のベースラインと比較できる。
YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.com/YouTubeチャンネルでビデオデモが公開されている。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。
提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。
バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文 参考訳(メタデータ) (2024-10-03T11:10:37Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。