論文の概要: Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2312.07638v1
- Date: Tue, 12 Dec 2023 11:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:46:06.100491
- Title: Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction
- Title(参考訳): 人間とロボットの相互作用における人間の視線と拡張現実を活用した未知の物体の教育
- Authors: Daniel Weber
- Abstract要約: この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 3.1473798197405953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots are becoming increasingly popular in a wide range of environments due
to their exceptional work capacity, precision, efficiency, and scalability.
This development has been further encouraged by advances in Artificial
Intelligence, particularly Machine Learning. By employing sophisticated neural
networks, robots are given the ability to detect and interact with objects in
their vicinity. However, a significant drawback arises from the underlying
dependency on extensive datasets and the availability of substantial amounts of
training data for these object detection models. This issue becomes
particularly problematic when the specific deployment location of the robot and
the surroundings, are not known in advance. The vast and ever-expanding array
of objects makes it virtually impossible to comprehensively cover the entire
spectrum of existing objects using preexisting datasets alone. The goal of this
dissertation was to teach a robot unknown objects in the context of Human-Robot
Interaction (HRI) in order to liberate it from its data dependency, unleashing
it from predefined scenarios. In this context, the combination of eye tracking
and Augmented Reality created a powerful synergy that empowered the human
teacher to communicate with the robot and effortlessly point out objects by
means of human gaze. This holistic approach led to the development of a
multimodal HRI system that enabled the robot to identify and visually segment
the Objects of Interest in 3D space. Through the class information provided by
the human, the robot was able to learn the objects and redetect them at a later
stage. Due to the knowledge gained from this HRI based teaching, the robot's
object detection capabilities exhibited comparable performance to
state-of-the-art object detectors trained on extensive datasets, without being
restricted to predefined classes, showcasing its versatility and adaptability.
- Abstract(参考訳): ロボットは、優れた作業能力、正確性、効率性、スケーラビリティによって、幅広い環境においてますます人気を高めています。
この開発は人工知能、特に機械学習の進歩によってさらに奨励されている。
高度なニューラルネットワークを利用することで、ロボットは近くの物体を検出して対話することができる。
しかしながら、広範囲なデータセットへの根本的な依存と、これらのオブジェクト検出モデルに対する相当量のトレーニングデータの提供から、大きな欠点が生まれます。
この問題は、ロボットと周囲の特定の配置場所が事前に分かっていない場合に特に問題となる。
広大なオブジェクトの配列は、既存のデータセットだけで既存のオブジェクトのスペクトル全体を包括的にカバーすることは事実上不可能である。
この論文の目的は、人間-ロボットインタラクション(HRI)の文脈で未知のオブジェクトを教えることで、そのデータ依存から解放し、事前に定義されたシナリオから解放することであった。
この文脈において、アイトラッキングと拡張現実の組み合わせは、人間の教師がロボットとコミュニケーションし、人間の視線によって物体を無力に指さすための強力なシナジーを生み出した。
この全体的アプローチは、ロボットが関心の対象を3D空間で識別し視覚的に分割できるマルチモーダルなHRIシステムの開発につながった。
人間が提供したクラス情報を通じて、ロボットはオブジェクトを学習し、後段で再検出することができた。
このHRIベースの教育から得られた知識により、ロボットの物体検出能力は、事前定義されたクラスに制限されず、その汎用性と適応性を示すことなく、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
関連論文リスト
- RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - A Survey of Embodied Learning for Object-Centric Robotic Manipulation [27.569063968870868]
オブジェクト中心のロボット操作のための身体学習は、AIの急速に発展し、挑戦的な分野である。
データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用を通じてロボット学習に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-21T11:32:09Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - Robo-ABC: Affordance Generalization Beyond Categories via Semantic
Correspondence for Robot Manipulation [20.69293648286978]
本稿では,ロボット操作のためのフレームワークであるRobo-ABCについて紹介する。
本稿では,Robo-ABCが視覚的可視性検索の精度を大幅に向上させることを示す。
Robo-ABCは85.7%の成功率を達成した。
論文 参考訳(メタデータ) (2024-01-15T06:02:30Z) - FOCUS: Object-Centric World Models for Robotics Manipulation [4.6956495676681484]
FOCUSは、オブジェクト中心の世界モデルを学ぶモデルベースのエージェントである。
オブジェクト中心の世界モデルにより、エージェントがより効率的にタスクを解くことができることを示す。
また、FOCUSが現実世界の環境でどのように採用されるかを示す。
論文 参考訳(メタデータ) (2023-07-05T16:49:06Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。