論文の概要: Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction
- arxiv url: http://arxiv.org/abs/2010.06797v5
- Date: Tue, 5 Oct 2021 16:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:23:36.581913
- Title: Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction
- Title(参考訳): 最大確率満足度を有する時相論理制御に基づく強化学習
- Authors: Mingyu Cai, Shaoping Xiao, Baoluo Li, Zhiliang Li and Zhen Kan
- Abstract要約: 本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
- 参考スコア(独自算出の注目度): 5.337302350000984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a model-free reinforcement learning (RL) algorithm to
synthesize a control policy that maximizes the satisfaction probability of
linear temporal logic (LTL) specifications. Due to the consideration of
environment and motion uncertainties, we model the robot motion as a
probabilistic labeled Markov decision process with unknown transition
probabilities and unknown probabilistic label functions. The LTL task
specification is converted to a limit deterministic generalized B\"uchi
automaton (LDGBA) with several accepting sets to maintain dense rewards during
learning. The novelty of applying LDGBA is to construct an embedded LDGBA
(E-LDGBA) by designing a synchronous tracking-frontier function, which enables
the record of non-visited accepting sets without increasing dimensional and
computational complexity. With appropriate dependent reward and discount
functions, rigorous analysis shows that any method that optimizes the expected
discount return of the RL-based approach is guaranteed to find the optimal
policy that maximizes the satisfaction probability of the LTL specifications. A
model-free RL-based motion planning strategy is developed to generate the
optimal policy in this paper. The effectiveness of the RL-based control
synthesis is demonstrated via simulation and experimental results.
- Abstract(参考訳): 本稿では,線形時間論理(LTL)仕様の満足度を最大化する制御ポリシをモデルフリー強化学習(RL)アルゴリズムで合成する。
環境や動きの不確実性を考慮して,ロボットの動作を,遷移確率や確率的ラベル関数が未知の確率的ラベル付きマルコフ決定過程としてモデル化する。
LTLタスク仕様は、学習中に高い報酬を維持するためにいくつかの受け入れセットを持つ制限決定論的一般化B\"uchi Automaticon (LDGBA) に変換される。
LDGBAの適用の斬新さは、次元と複雑性の複雑さを増大させることなく、非訪問受理集合の記録を可能にする同期追跡フロンティア関数を設計することで、組み込みLDGBA(E-LDGBA)を構築することである。
適切な従属報酬と割引関数により、厳密な分析により、rlベースのアプローチの期待されたディスカウントリターンを最適化する手法は、ltl仕様の満足度を最大化する最適なポリシーを見つけることが保証される。
本稿では, モデルフリーのrlベースモーションプランニング戦略を開発し, 最適ポリシーを導出する。
rl系制御合成の有効性をシミュレーションと実験により実証した。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Sample Efficient Model-free Reinforcement Learning from LTL
Specifications with Optimality Guarantees [17.69385864791265]
未知のシステムに対して最適なポリシーを効率的に学習するモデルフリー強化学習(RL)手法を提案する。
また、最適性を確保するために鍵パラメータの選択に関する理論的結果も改善した。
論文 参考訳(メタデータ) (2023-05-02T12:57:05Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。