論文の概要: Learning Visually Guided Latent Actions for Assistive Teleoperation
- arxiv url: http://arxiv.org/abs/2105.00580v1
- Date: Sun, 2 May 2021 23:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 23:22:09.542815
- Title: Learning Visually Guided Latent Actions for Assistive Teleoperation
- Title(参考訳): 遠隔操作支援のための視覚誘導潜伏動作の学習
- Authors: Siddharth Karamcheti, Albert J. Zhai, Dylan P. Losey, Dorsa Sadigh
- Abstract要約: 視覚入力に潜伏埋め込みを条件とした補助ロボットを開発。
少量の安価で収集しやすい構造データに予め訓練されたオブジェクト検出器を組み込むことにより、i)現在のコンテキストを正確に認識し、ii)新しいオブジェクトやタスクへの制御埋め込みを一般化する。
- 参考スコア(独自算出の注目度): 9.75385535829762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is challenging for humans -- particularly those living with physical
disabilities -- to control high-dimensional, dexterous robots. Prior work
explores learning embedding functions that map a human's low-dimensional inputs
(e.g., via a joystick) to complex, high-dimensional robot actions for assistive
teleoperation; however, a central problem is that there are many more
high-dimensional actions than available low-dimensional inputs. To extract the
correct action and maximally assist their human controller, robots must reason
over their context: for example, pressing a joystick down when interacting with
a coffee cup indicates a different action than when interacting with knife. In
this work, we develop assistive robots that condition their latent embeddings
on visual inputs. We explore a spectrum of visual encoders and show that
incorporating object detectors pretrained on small amounts of cheap,
easy-to-collect structured data enables i) accurately and robustly recognizing
the current context and ii) generalizing control embeddings to new objects and
tasks. In user studies with a high-dimensional physical robot arm, participants
leverage this approach to perform new tasks with unseen objects. Our results
indicate that structured visual representations improve few-shot performance
and are subjectively preferred by users.
- Abstract(参考訳): 人間(特に身体障害者)は、高次元の器用なロボットを制御することが難しい。
先行研究は、人間の低次元入力(例えばジョイスティック)を補助遠隔操作のための複雑な高次元ロボットアクションにマッピングする埋め込み関数の学習を探求するが、中心となる問題は、利用可能な低次元入力よりも多くの高次元アクションが存在することである。
正しい動作を抽出し、人間のコントローラーを最大限に支援するには、ロボットは、例えば、コーヒーカップと相互作用する際にジョイスティックを押下することは、ナイフと相互作用する場合とは異なる動作を示す。
本研究では,視覚入力への潜在埋め込みを条件とした補助ロボットを開発した。
ビジュアルエンコーダのスペクトルを探索し、少量の安価で簡単に収集可能な構造化データに事前訓練されたオブジェクト検出器を組み込むことで、(現在の状況を認識し、)新しいオブジェクトやタスクに制御埋め込みを一般化する。
高次元の物理ロボットアームを用いたユーザスタディでは、参加者はこのアプローチを利用して見えない物体で新しいタスクを実行する。
以上の結果から,構造化された視覚表現は少ないショット性能を向上し,主観的にユーザにより好まれることが示唆された。
関連論文リスト
- Zero-Cost Whole-Body Teleoperation for Mobile Manipulation [8.71539730969424]
MoMa-Teleopは、ベースモーションを強化学習エージェントに委譲する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。
ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。
ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文 参考訳(メタデータ) (2021-10-09T04:22:21Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Careful with That! Observation of Human Movements to Estimate Objects
Properties [106.925705883949]
我々は、物体の重さについての洞察を伝える人間の運動行動の特徴に焦点を当てる。
最後の目標は、ロボットがオブジェクトハンドリングに必要なケアの度合いを自律的に推測できるようにすることです。
論文 参考訳(メタデータ) (2021-03-02T08:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。