論文の概要: Generalizable task representation learning from human demonstration
videos: a geometric approach
- arxiv url: http://arxiv.org/abs/2202.13604v1
- Date: Mon, 28 Feb 2022 08:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:15:03.640905
- Title: Generalizable task representation learning from human demonstration
videos: a geometric approach
- Title(参考訳): 人間のデモビデオからの一般化可能なタスク表現学習 : 幾何学的アプローチ
- Authors: Jun Jin, Martin Jagersand
- Abstract要約: 本研究では,ロボットやロボットの動きを訓練することなく,人間のデモビデオからタスク学習を一般化する問題について検討する。
本研究では,構造制約下でのタスク表現の学習にグラフ構造化タスク関数を用いたCoVGS-ILを提案する。
- 参考スコア(独自算出の注目度): 4.640835690336654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of generalizable task learning from human demonstration
videos without extra training on the robot or pre-recorded robot motions. Given
a set of human demonstration videos showing a task with different objects/tools
(categorical objects), we aim to learn a representation of visual observation
that generalizes to categorical objects and enables efficient controller
design. We propose to introduce a geometric task structure to the
representation learning problem that geometrically encodes the task
specification from human demonstration videos, and that enables generalization
by building task specification correspondence between categorical objects.
Specifically, we propose CoVGS-IL, which uses a graph-structured task function
to learn task representations under structural constraints. Our method enables
task generalization by selecting geometric features from different objects
whose inner connection relationships define the same task in geometric
constraints. The learned task representation is then transferred to a robot
controller using uncalibrated visual servoing (UVS); thus, the need for extra
robot training or pre-recorded robot motions is removed.
- Abstract(参考訳): 本研究では,ロボットやロボットの動きを訓練することなく,人間のデモビデオからタスク学習を一般化する問題について検討する。
異なるオブジェクト/ツール(分類対象)のタスクを示す人間のデモビデオのセットを前提に,分類対象に一般化し,効率的な制御設計を可能にする視覚的観察の表現を学習することを目指す。
本稿では、人間のデモビデオからタスク仕様を幾何学的に符号化し、分類対象間のタスク仕様対応を構築することで一般化を可能にする表現学習問題に幾何学的タスク構造を導入することを提案する。
具体的には,グラフ構造タスク関数を用いて構造制約下でタスク表現を学習するcovgs-ilを提案する。
内部接続関係が同じタスクを幾何学的制約で定義している異なるオブジェクトから幾何学的特徴を選択することで,タスクの一般化を可能にする。
学習したタスク表現は、uncalibrated visual servoing (UVS)を使用してロボットコントローラに転送されるため、追加のロボットトレーニングや事前記録されたロボット動作の必要性が除去される。
関連論文リスト
- ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - Few-Shot In-Context Imitation Learning via Implicit Graph Alignment [15.215659641228655]
オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。
この条件付けにより、ロボットがデモ直後に新しいオブジェクトのセット上でタスクを実行できる、コンテキスト内学習が可能となることを示す。
論文 参考訳(メタデータ) (2023-10-18T18:26:01Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - Learning Rope Manipulation Policies Using Dense Object Descriptors
Trained on Synthetic Depth Data [32.936908766549344]
本稿では,初期とゴールのロープ構成間の点対対応を学習する手法を提案する。
ABB YuMi Robotによるノットタイリングタスクの50回の試行では、これまで見つからなかった構成から66%のノットタイリング成功率を達成した。
論文 参考訳(メタデータ) (2020-03-03T23:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。