論文の概要: Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments
- arxiv url: http://arxiv.org/abs/2305.00561v1
- Date: Sun, 30 Apr 2023 19:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:37:24.148753
- Title: Model-free Motion Planning of Autonomous Agents for Complex Tasks in
Partially Observable Environments
- Title(参考訳): 部分観測可能な環境下での複雑なタスクのための自律エージェントのモデルフリー運動計画
- Authors: Junchao Li, Mingyu Cai, Zhen Kan and Shaoping Xiao
- Abstract要約: 部分的に知られている環境での自律エージェントの動作計画は難しい問題である。
本稿では,モデルのない強化学習手法を提案する。
提案手法は, 環境, 行動, 観測の不確実性に効果的に対処できることを示す。
- 参考スコア(独自算出の注目度): 3.7660066212240753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion planning of autonomous agents in partially known environments with
incomplete information is a challenging problem, particularly for complex
tasks. This paper proposes a model-free reinforcement learning approach to
address this problem. We formulate motion planning as a probabilistic-labeled
partially observable Markov decision process (PL-POMDP) problem and use linear
temporal logic (LTL) to express the complex task. The LTL formula is then
converted to a limit-deterministic generalized B\"uchi automaton (LDGBA). The
problem is redefined as finding an optimal policy on the product of PL-POMDP
with LDGBA based on model-checking techniques to satisfy the complex task. We
implement deep Q learning with long short-term memory (LSTM) to process the
observation history and task recognition. Our contributions include the
proposed method, the utilization of LTL and LDGBA, and the LSTM-enhanced deep Q
learning. We demonstrate the applicability of the proposed method by conducting
simulations in various environments, including grid worlds, a virtual office,
and a multi-agent warehouse. The simulation results demonstrate that our
proposed method effectively addresses environment, action, and observation
uncertainties. This indicates its potential for real-world applications,
including the control of unmanned aerial vehicles (UAVs).
- Abstract(参考訳): 不完全な情報を含む部分的に既知の環境での自律エージェントの動作計画は、特に複雑なタスクにおいて、難しい問題である。
本稿では,この問題に対処するためのモデルフリー強化学習手法を提案する。
確率ラベル付き部分観測可能マルコフ決定過程(PL-POMDP)問題として動作計画を定式化し,線形時間論理(LTL)を用いて複雑なタスクを表現する。
LTLの公式は、極限決定論的一般化されたB\"uchi Automaticon (LDGBA)に変換される。
この問題は,PL-POMDP と LDGBA の製品に対して,複雑なタスクを満たすためのモデルチェック技術に基づく最適ポリシーを求めるものとして再定義されている。
観測履歴とタスク認識を処理するために,長い短期記憶(LSTM)を用いた深層Q学習を実装した。
提案手法には,LTLとLDGBAの利用,LSTMによる深層Q学習などが含まれている。
本稿では,グリッドワールド,仮想オフィス,マルチエージェント倉庫など,様々な環境でシミュレーションを行うことにより,提案手法の適用性を示す。
シミュレーションの結果,提案手法が環境,行動,観察の不確実性に効果的に対処できることが判明した。
これは、無人航空機(UAV)の制御を含む現実世界の応用の可能性を示している。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。