論文の概要: Learning Robot Skills with Temporal Variational Inference
- arxiv url: http://arxiv.org/abs/2006.16232v1
- Date: Mon, 29 Jun 2020 17:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:22:48.391160
- Title: Learning Robot Skills with Temporal Variational Inference
- Title(参考訳): 時間変動推論によるロボットスキルの学習
- Authors: Tanmay Shankar and Abhinav Gupta
- Abstract要約: 本稿では,ロボットが様々なタスクを行う場合のデモから,低レベル制御ポリシと高レベル制御ポリシを共同で学習するフレームワークを提案する。
我々は,3つのロボットデモデータセットからこのような選択肢を学習するフレームワークの能力を実証する。
- 参考スコア(独自算出の注目度): 31.742002337959107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the discovery of robotic options from
demonstrations in an unsupervised manner. Specifically, we present a framework
to jointly learn low-level control policies and higher-level policies of how to
use them from demonstrations of a robot performing various tasks. By
representing options as continuous latent variables, we frame the problem of
learning these options as latent variable inference. We then present a temporal
formulation of variational inference based on a temporal factorization of
trajectory likelihoods,that allows us to infer options in an unsupervised
manner. We demonstrate the ability of our framework to learn such options
across three robotic demonstration datasets.
- Abstract(参考訳): 本稿では、教師なしの方法でデモからロボットオプションが発見されることに対処する。
具体的には,ロボットのさまざまなタスクを行うデモから,低レベル制御ポリシと高レベル制御ポリシを共同で学習するためのフレームワークを提案する。
オプションを連続潜伏変数として表現することで、これらのオプションを潜伏変数推論として学習する問題の枠組みとなる。
次に,軌道確率の時間分解に基づく変分推論の時間的定式化を行い,教師なしの方法で選択肢を推定する。
3つのロボットデモデータセットでこのような選択肢を学習するフレームワークの能力を実証する。
関連論文リスト
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans [9.600625243282618]
本研究では,1回に1回に1回,十分な審美的デモンストレーションの集合を得るという課題について検討する。
実験結果から操作計画を生成するために, (i) スクリュー幾何表現を用いて, これらのオープンな問題に対処する新しい手法を提案する。
本研究は,2つの実例操作課題,すなわち注水とスクーピングに関する実験結果である。
論文 参考訳(メタデータ) (2024-10-23T20:57:56Z) - DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - "Guess what I'm doing": Extending legibility to sequential decision
tasks [7.352593846694083]
不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。
提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
論文 参考訳(メタデータ) (2022-09-19T16:01:33Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-14T16:26:52Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。