論文の概要: Model-based Reinforcement Learning from Signal Temporal Logic
Specifications
- arxiv url: http://arxiv.org/abs/2011.04950v1
- Date: Tue, 10 Nov 2020 07:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:17:33.190221
- Title: Model-based Reinforcement Learning from Signal Temporal Logic
Specifications
- Title(参考訳): 信号時相論理仕様に基づくモデルベース強化学習
- Authors: Parv Kapoor, Anand Balakrishnan, Jyotirmoy V. Deshmukh
- Abstract要約: 本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望まれるハイレベルロボット動作を表現することを提案する。
提案アルゴリズムは、ピック・アンド・プレース・ロボットアームなどのロボットシステムのシミュレーションと、自律走行車に対する適応的なクルーズ制御を実証的に評価する。
- 参考スコア(独自算出の注目度): 0.17205106391379021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Techniques based on Reinforcement Learning (RL) are increasingly being used
to design control policies for robotic systems. RL fundamentally relies on
state-based reward functions to encode desired behavior of the robot and bad
reward functions are prone to exploitation by the learning agent, leading to
behavior that is undesirable in the best case and critically dangerous in the
worst. On the other hand, designing good reward functions for complex tasks is
a challenging problem. In this paper, we propose expressing desired high-level
robot behavior using a formal specification language known as Signal Temporal
Logic (STL) as an alternative to reward/cost functions. We use STL
specifications in conjunction with model-based learning to design model
predictive controllers that try to optimize the satisfaction of the STL
specification over a finite time horizon. The proposed algorithm is empirically
evaluated on simulations of robotic system such as a pick-and-place robotic
arm, and adaptive cruise control for autonomous vehicles.
- Abstract(参考訳): 強化学習(RL)に基づく技術は、ロボットシステムの制御ポリシーの設計にますます利用されている。
RLは基本的に、ロボットの望ましい振る舞いを符号化する状態に基づく報酬関数に依存しており、悪い報酬関数は学習エージェントによる搾取の傾向があり、最良の場合では望ましくない行動につながり、最悪の場合は致命的な危険をもたらす。
一方,複雑なタスクに対して適切な報酬関数を設計することは,難しい課題である。
本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望ましいロボット動作を表現することを提案する。
STL仕様をモデルベース学習と併用して,STL仕様の満足度を有限時間水平線上で最適化するモデル予測コントローラを設計する。
提案アルゴリズムは,ロボットアームのピック・アンド・プレースや自律走行車両の適応クルーズ制御などのロボットシステムのシミュレーションに基づいて実証的に評価される。
関連論文リスト
- Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Facilitating Sim-to-real by Intrinsic Stochasticity of Real-Time
Simulation in Reinforcement Learning for Robot Manipulation [1.6686307101054858]
市販シミュレーションソフトウェアにおけるリアルタイムシミュレーション(RT-IS)の本質性について検討する。
RT-ISは、ランダム化を少なくし、タスク依存ではなく、従来のドメインランダム化駆動エージェントよりも優れた一般化性を実現する。
論文 参考訳(メタデータ) (2023-04-12T12:15:31Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。