Fugu-MT 論文翻訳(概要): Learning Minimally-Violating Continuous Control for Infeasible Linear Temporal Logic Specifications

論文の概要: Learning Minimally-Violating Continuous Control for Infeasible Linear Temporal Logic Specifications

arxiv url: http://arxiv.org/abs/2210.01162v1
Date: Mon, 3 Oct 2022 18:32:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 14:08:17.976135
Title: Learning Minimally-Violating Continuous Control for Infeasible Linear Temporal Logic Specifications
Title（参考訳）: 不可能な線形時間論理仕様に対する最小振動連続制御の学習
Authors: Mingyu Cai, Makai Mann, Zachary Serlin, Kevin Leahy, Cristian-Ioan Vasile
Abstract要約: 本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
参考スコア（独自算出の注目度）: 2.496282558123411
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores continuous-time control synthesis for target-driven navigation to satisfy complex high-level tasks expressed as linear temporal logic (LTL). We propose a model-free framework using deep reinforcement learning (DRL) where the underlying dynamic system is unknown (an opaque box). Unlike prior work, this paper considers scenarios where the given LTL specification might be infeasible and therefore cannot be accomplished globally. Instead of modifying the given LTL formula, we provide a general DRL-based approach to satisfy it with minimal violation. %\mminline{Need to decide if we're comfortable calling these "guarantees" due to the stochastic policy. I'm not repeating this comment everywhere that says "guarantees" but there are multiple places.} To do this, we transform a previously multi-objective DRL problem, which requires simultaneous automata satisfaction and minimum violation cost, into a single objective. By guiding the DRL agent with a sampling-based path planning algorithm for the potentially infeasible LTL task, the proposed approach mitigates the myopic tendencies of DRL, which are often an issue when learning general LTL tasks that can have long or infinite horizons. This is achieved by decomposing an infeasible LTL formula into several reach-avoid sub-tasks with shorter horizons, which can be trained in a modular DRL architecture. Furthermore, we overcome the challenge of the exploration process for DRL in complex and cluttered environments by using path planners to design rewards that are dense in the configuration space. The benefits of the presented approach are demonstrated through testing on various complex nonlinear systems and compared with state-of-the-art baselines. The Video demonstration can be found on YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.
Abstract（参考訳）: 本稿では,線形時間論理(LTL)として表される複雑な高次タスクを満たすために,目標駆動ナビゲーションのための連続時間制御合成を提案する。本稿では,基盤となる動的システムが未知(不透明箱)である深層強化学習(drl)を用いたモデルフリーフレームワークを提案する。本稿では,従来の研究とは異なり,LTL仕様が実現不可能であり,グローバルに達成できないシナリオについて考察する。与えられたLTL式を変更する代わりに、最小限の違反で満たすための一般的なDRLベースのアプローチを提供する。を、確率的なポリシーで呼ぶのが楽しいかどうかを判断するために、%\mminline{Need。と言うようなコメントをどこにでも繰り返すつもりはありませんが、複数の場所があります。これを実現するために、我々は、自動的満足度と最小違反コストを同時に要求する従来の多目的DRL問題を単一目的に変換する。 drlエージェントに潜在的に実現不可能なltlタスクのためのサンプリングベースの経路計画アルゴリズムを誘導することにより、提案手法はdrlの近視的傾向を軽減し、これは長地平線や無限地平線を持つ一般的なltlタスクを学習する際に問題となる。これは、実用不可能なLTL式を、より短い水平線を持ついくつかのリーチアビドサブタスクに分解することで実現される。さらに,経路プランナを用いて構成空間に密接な報酬を設計することにより,複雑で散在した環境におけるDRL探索の課題を克服する。提案手法の利点は, 様々な非線形システムのテストにより実証され, 最先端のベースラインと比較できる。 YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.com/YouTubeチャンネルでビデオデモが公開されている。

関連論文リスト

Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-02T10:44:51Z)
RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。 AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文参考訳（メタデータ） (2025-06-22T17:46:14Z)
SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文参考訳（メタデータ） (2024-11-27T10:45:49Z)
Navigation with QPHIL: Quantizing Planner for Hierarchical Implicit Q-Learning [17.760679318994384]
空間の学習量化器を利用する階層型トランスフォーマーに基づく新しい手法を提案する。この量子化により、より単純なゾーン条件の低レベルポリシーのトレーニングが可能になり、計画が簡単になる。提案手法は,複雑な長距離ナビゲーション環境における最先端の成果を実現する。
論文参考訳（メタデータ） (2024-11-12T12:49:41Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文参考訳（メタデータ） (2023-09-10T20:31:25Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
Sample-Efficient Reinforcement Learning Is Feasible for Linearly Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文参考訳（メタデータ） (2021-05-17T17:22:07Z)
Reinforcement Learning Based Temporal Logic Control with Maximum Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。 RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文参考訳（メタデータ） (2020-10-14T03:49:16Z)
Continuous Motion Planning with Temporal Logic Specifications using Deep Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2020-04-02T17:58:03Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。