論文の概要: Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms
- arxiv url: http://arxiv.org/abs/2109.03813v2
- Date: Thu, 9 Sep 2021 18:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 05:44:35.212864
- Title: Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms
- Title(参考訳): Video2Skill: サイクリックMDP準同型を用いたデモ映像のイベント適応環境
- Authors: Sumedh A Sontakke, Sumegh Roychowdhury, Mausoom Sarkar, Nikaash Puri,
Balaji Krishnamurthy, Laurent Itti
- Abstract要約: Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
- 参考スコア(独自算出の注目度): 16.939129935919325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at learning long-horizon tasks from demonstrations augmented
with textual commentary, as evidenced by the burgeoning popularity of tutorial
videos online. Intuitively, this capability can be separated into 2 distinct
subtasks - first, dividing a long-horizon demonstration sequence into
semantically meaningful events; second, adapting such events into meaningful
behaviors in one's own environment. Here, we present Video2Skill (V2S), which
attempts to extend this capability to artificial agents by allowing a robot arm
to learn from human cooking videos. We first use sequence-to-sequence
Auto-Encoder style architectures to learn a temporal latent space for events in
long-horizon demonstrations. We then transfer these representations to the
robotic target domain, using a small amount of offline and unrelated
interaction data (sequences of state-action pairs of the robot arm controlled
by an expert) to adapt these events into actionable representations, i.e.,
skills. Through experiments, we demonstrate that our approach results in
self-supervised analogy learning, where the agent learns to draw analogies
between motions in human demonstration data and behaviors in the robotic
environment. We also demonstrate the efficacy of our approach on model learning
- demonstrating how Video2Skill utilizes prior knowledge from human
demonstration to outperform traditional model learning of long-horizon
dynamics. Finally, we demonstrate the utility of our approach for non-tabula
rasa decision-making, i.e, utilizing video demonstration for zero-shot skill
generation.
- Abstract(参考訳): オンラインのチュートリアルビデオの人気が急増していることから、人間はテキストコメンタリーで強化されたデモから長期のタスクを学ぶのが得意だ。
直感的には、この能力は2つの異なるサブタスクに分けられる - まず、長い水平のデモシーケンスを意味的に意味のあるイベントに分割する。
ここでは、ロボットアームが人間の料理ビデオから学習できるようにして、この機能を人工エージェントに拡張しようとするvideo2skill(v2s)を紹介する。
まず,シーケンシャル・ツー・シーケンシャルなオートエンコーダ方式のアーキテクチャを用いて,ロングホライゾンのデモンストレーションでイベントの時間的潜在空間を学習する。
そして、これらの表現をロボットターゲットドメインに転送し、少量のオフラインおよび無関係なインタラクションデータ(専門家が制御するロボットアームの状態-アクションペアのシーケンス)を使用して、これらのイベントを実行可能な表現、すなわちスキルに適応させます。
実験により,ロボット環境における動作と動作の類似性について,エージェントが学習する自己教師型アナロジー学習が実現されることが実証された。
また,Voice2Skillは,人間の実演から得た事前知識を用いて,従来のモデル学習の長軸ダイナミクスよりも優れていることを示す。
最後に,非タブララサ意思決定におけるアプローチの有用性,すなわちゼロショットスキル生成のためのビデオデモの利用を実証する。
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-14T16:26:52Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。