論文の概要: Distributed Control using Reinforcement Learning with
Temporal-Logic-Based Reward Shaping
- arxiv url: http://arxiv.org/abs/2203.04172v1
- Date: Tue, 8 Mar 2022 16:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:45:18.390846
- Title: Distributed Control using Reinforcement Learning with
Temporal-Logic-Based Reward Shaping
- Title(参考訳): 時間論理に基づく報酬形成による強化学習による分散制御
- Authors: Ningyuan Zhang, Wenliang Liu, Calin Belta
- Abstract要約: 本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するためのフレームワークを提案する。
提案手法では,合成問題をゲームとして定式化し,ポリシーグラフ法を用いて各エージェントのメモリによる制御戦略を求める。
我々はTLTLの量的意味論をゲームの報酬として使用し、さらに有限状態オートマトンを用いて学習プロセスのガイドと高速化を行う。
- 参考スコア(独自算出の注目度): 0.2320417845168326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a computational framework for synthesis of distributed control
strategies for a heterogeneous team of robots in a partially observable
environment. The goal is to cooperatively satisfy specifications given as
Truncated Linear Temporal Logic (TLTL) formulas. Our approach formulates the
synthesis problem as a stochastic game and employs a policy graph method to
find a control strategy with memory for each agent. We construct the stochastic
game on the product between the team transition system and a finite state
automaton (FSA) that tracks the satisfaction of the TLTL formula. We use the
quantitative semantics of TLTL as the reward of the game, and further reshape
it using the FSA to guide and accelerate the learning process. Simulation
results demonstrate the efficacy of the proposed solution under demanding task
specifications and the effectiveness of reward shaping in significantly
accelerating the speed of learning.
- Abstract(参考訳): 本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するための計算フレームワークを提案する。
目的は、Truncated Linear Temporal Logic (TLTL) として与えられる仕様を協調的に満たすことである。
本手法は,合成問題を確率ゲームとして定式化し,各エージェントにメモリを持つ制御戦略を見つけるためのポリシーグラフ手法を用いる。
チーム遷移システムと有限状態オートマトン(FSA)の積上での確率ゲームを構築し,TLTL式の満足度を追跡する。
我々はTLTLの量的意味論をゲームの報酬として使用し、さらにFSAを用いて学習プロセスのガイドと高速化を行う。
シミュレーションの結果,課題仕様要求時の提案手法の有効性と,学習速度を著しく向上させる報酬形成の有効性が示された。
関連論文リスト
- Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Learning Optimal Strategies for Temporal Tasks in Stochastic Games [23.012106429532633]
本稿では,モデルフリー強化学習(RL)アプローチを導入し,与えられた仕様からコントローラを導出する。
我々は,最悪の環境行動に対する仕様を満たす確率を最大化する最適制御戦略を学習する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。