論文の概要: Learning from Demonstrations using Signal Temporal Logic
- arxiv url: http://arxiv.org/abs/2102.07730v1
- Date: Mon, 15 Feb 2021 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:59:17.316398
- Title: Learning from Demonstrations using Signal Temporal Logic
- Title(参考訳): 信号時間論理を用いたデモンストレーションからの学習
- Authors: Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis
- Abstract要約: 効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.2182193687133713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-from-demonstrations is an emerging paradigm to obtain effective
robot control policies for complex tasks via reinforcement learning without the
need to explicitly design reward functions. However, it is susceptible to
imperfections in demonstrations and also raises concerns of safety and
interpretability in the learned control policies. To address these issues, we
use Signal Temporal Logic to evaluate and rank the quality of demonstrations.
Temporal logic-based specifications allow us to create non-Markovian rewards,
and also define interesting causal dependencies between tasks such as
sequential task specifications. We validate our approach through experiments on
discrete-world and OpenAI Gym environments, and show that our approach
outperforms the state-of-the-art Maximum Causal Entropy Inverse Reinforcement
Learning.
- Abstract(参考訳): 報酬関数を明示的に設計することなく強化学習によって複雑なタスクのための効果的なロボット制御ポリシーを得るための新しいパラダイムである。
しかし、実証における欠陥の影響を受けやすく、学習された制御方針における安全性と解釈可能性の懸念も高まる。
これらの問題に対処するために,我々は信号時相論理を用いて実演の質を評価しランク付けする。
時相論理ベースの仕様により、非マルコフ的報酬を作成でき、シーケンシャルタスク仕様のようなタスク間の興味深い因果依存関係も定義できます。
離散世界およびOpenAIジム環境に関する実験を通じて、私たちのアプローチが最先端の最大因果的エントロピー逆強化学習よりも優れていることを示しています。
関連論文リスト
- Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Reinforcement Learning for Signal Temporal Logic using Funnel-Based
Approach [0.0]
本研究では、連続状態空間におけるSTL仕様の堅牢な満足度に関する時間依存ポリシーを学習するための、抽出可能な強化学習アルゴリズムを提案する。
我々は、振り子と移動ロボットの例を用いて、いくつかのタスクにおけるアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Inverse Reinforcement Learning of Autonomous Behaviors Encoded as
Weighted Finite Automata [18.972270182221262]
本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
高レベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)との間にある製品を定義し、実証者の行動にマッチするコスト関数を最適化する。
論文 参考訳(メタデータ) (2021-03-10T06:42:10Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。