論文の概要: Elaborating on Learned Demonstrations with Temporal Logic Specifications
- arxiv url: http://arxiv.org/abs/2002.00784v2
- Date: Fri, 22 May 2020 19:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:40:32.858743
- Title: Elaborating on Learned Demonstrations with Temporal Logic Specifications
- Title(参考訳): 時間論理仕様を用いた学習的実証実験
- Authors: Craig Innes, Subramanian Ramamoorthy
- Abstract要約: 私たちのシステムは、トレーニングで見られるものだけでなく、目に見えない入力に関する所定の仕様を満たすことを学びます。
より単純な仕様をインクリメンタルに構成することで、複雑な仕様でベースデモを変更できることが示される。
また,このシステムをPR-2ロボットに実装し,実証者が初期(準最適)のデモからどのように始めて,対話的にタスク成功を改善するかを示す。
- 参考スコア(独自算出の注目度): 20.815131169609316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current methods for learning from demonstrations assume that those
demonstrations alone are sufficient to learn the underlying task. This is often
untrue, especially if extra safety specifications exist which were not present
in the original demonstrations. In this paper, we allow an expert to elaborate
on their original demonstration with additional specification information using
linear temporal logic (LTL). Our system converts LTL specifications into a
differentiable loss. This loss is then used to learn a dynamic movement
primitive that satisfies the underlying specification, while remaining close to
the original demonstration. Further, by leveraging adversarial training, our
system learns to robustly satisfy the given LTL specification on unseen inputs,
not just those seen in training. We show that our method is expressive enough
to work across a variety of common movement specification patterns such as
obstacle avoidance, patrolling, keeping steady, and speed limitation. In
addition, we show that our system can modify a base demonstration with complex
specifications by incrementally composing multiple simpler specifications. We
also implement our system on a PR-2 robot to show how a demonstrator can start
with an initial (sub-optimal) demonstration, then interactively improve task
success by including additional specifications enforced with our differentiable
LTL loss.
- Abstract(参考訳): デモから学ぶための現在のほとんどの方法は、これらのデモだけで基礎となるタスクを学ぶのに十分だと仮定している。
これはしばしば事実ではなく、特に元のデモにはなかった追加の安全仕様が存在する場合である。
本稿では,線形時間論理(LTL)を用いた仕様情報を追加して,専門家が元のデモについて詳しく説明する。
本システムはltl仕様を微分可能損失に変換する。
この損失は、元のデモに近いまま、基盤となる仕様を満たす動的運動プリミティブを学ぶために使用される。
さらに, 対戦型学習を活用することで, 学習中の学習者だけでなく, 未知の入力に対するLTL仕様をしっかりと満たすことができる。
本研究では, 障害物回避, パトロール, 安定維持, 速度制限など, さまざまな共通動作仕様パターンにまたがる動作を表現できることを示す。
さらに,複数の簡単な仕様をインクリメンタルに構成することで,複雑な仕様でベースデモを修正できることを示す。
また,本システムをpr-2ロボットに実装して,デモ参加者が最初の(副最適)デモンストレーションから始める方法を示し,その上で,識別可能なltl損失で強制される追加仕様を含め,対話的にタスク成功率の向上を図る。
関連論文リスト
- DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - RoboCLIP: One Demonstration is Enough to Learn Robot Policies [72.24495908759967]
RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
論文 参考訳(メタデータ) (2023-10-11T21:10:21Z) - Are Human-generated Demonstrations Necessary for In-context Learning? [22.783456038837794]
SEC(Self-contemplation prompting Strategy)は、人為的なデモンストレーションのないパラダイムである。
算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける大規模な実験は、SECがゼロショット学習戦略を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-26T05:10:08Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。