論文の概要: Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from
Demonstrations
- arxiv url: http://arxiv.org/abs/2206.04632v1
- Date: Thu, 9 Jun 2022 17:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:09:25.779541
- Title: Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from
Demonstrations
- Title(参考訳): 時間論理模倣:実証から計画満足動作ポリシーを学ぶ
- Authors: Yanwei Wang, Nadia Figueroa, Shen Li, Ankit Shah, Julie Shah
- Abstract要約: 実演法(LfD)から学ぶことで,多段階課題の解決が期待できる。
本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。
我々は,線形時間論理(LTL)式で規定される任意の離散計画について,学習された連続ポリシーがシミュレート可能であることを証明した。
- 参考スコア(独自算出の注目度): 15.762916270583698
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning from demonstration (LfD) methods have shown promise for solving
multi-step tasks; however, these approaches do not guarantee successful
reproduction of the task given disturbances. In this work, we identify the
roots of such a challenge as the failure of the learned continuous policy to
satisfy the discrete plan implicit in the demonstration. By utilizing modes
(rather than subgoals) as the discrete abstraction and motion policies with
both mode invariance and goal reachability properties, we prove our learned
continuous policy can simulate any discrete plan specified by a Linear Temporal
Logic (LTL) formula. Consequently, the imitator is robust to both task- and
motion-level disturbances and guaranteed to achieve task success. Project page:
https://sites.google.com/view/ltl-ds
- Abstract(参考訳): 実演法(LfD)から学んだことは,多段階課題の解決に有望であることを示しているが,これらの手法は与えられた障害の再現を成功させるものではない。
本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。
モード(サブゴールではなく)をモード不変性と目標到達性特性の両方を持つ離散抽象と運動ポリシーとして活用することにより、学習された連続ポリシーが線形時間論理(LTL)式で定義された離散計画をシミュレートできることを示す。
その結果、模倣者はタスクレベルの乱れと動作レベルの乱れの両方に対して堅牢であり、タスクの成功を達成することが保証される。
プロジェクトページ: https://sites.google.com/view/ltl-ds
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。