論文の概要: NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2403.02274v1
- Date: Mon, 4 Mar 2024 18:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:48:58.029105
- Title: NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction
- Title(参考訳): NatSGD:自然とロボットのインタラクションにおけるロボット学習のための音声・ジェスチャー・デモ付きデータセット
- Authors: Snehesh Shrestha, Yantian Zha, Saketh Banagiri, Ge Gao, Yiannis
Aloimonos, Cornelia Fermuller
- Abstract要約: HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
- 参考スコア(独自算出の注目度): 19.65778558341053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal Human-Robot Interaction (HRI) datasets have
highlighted the fusion of speech and gesture, expanding robots' capabilities to
absorb explicit and implicit HRI insights. However, existing speech-gesture HRI
datasets often focus on elementary tasks, like object pointing and pushing,
revealing limitations in scaling to intricate domains and prioritizing human
command data over robot behavior records. To bridge these gaps, we introduce
NatSGD, a multimodal HRI dataset encompassing human commands through speech and
gestures that are natural, synchronized with robot behavior demonstrations.
NatSGD serves as a foundational resource at the intersection of machine
learning and HRI research, and we demonstrate its effectiveness in training
robots to understand tasks through multimodal human commands, emphasizing the
significance of jointly considering speech and gestures. We have released our
dataset, simulator, and code to facilitate future research in human-robot
interaction system learning; access these resources at
https://www.snehesh.com/natsgd/
- Abstract(参考訳): マルチモーダルヒューマンロボットインタラクション(HRI)データセットの最近の進歩は、音声とジェスチャーの融合を強調し、ロボットの能力を拡張して、明示的で暗黙的なHRIの洞察を吸収している。
しかし、既存の音声認識のHRIデータセットは、オブジェクトのポインティングやプッシュ、複雑なドメインへのスケーリングの制限、ロボットの行動記録に対する人間のコマンドデータの優先順位付けなど、基本的なタスクに重点を置いていることが多い。
これらのギャップを埋めるために、ロボットの動作デモと自然に同期した音声やジェスチャーを通じて人間のコマンドを包含するマルチモーダルHRIデータセットであるNatSGDを導入する。
NatSGDは,機械学習とHRI研究の共通点における基礎資料として機能し,マルチモーダルなヒューマンコマンドによるタスク理解のためのロボット訓練の有効性を実証し,音声とジェスチャーを併用することの重要性を強調した。
私たちは、人間とロボットのインタラクションシステム学習における将来の研究を促進するために、データセット、シミュレータ、コードをリリースした。
関連論文リスト
- Imitation of human motion achieves natural head movements for humanoid robots in an active-speaker detection task [2.8220015774219567]
頭の動きは社会的人間と人間の相互作用に不可欠である。
そこで本研究では,直型ヒューマノイドロボットの頭部運動生成に生成型AIパイプラインを用いた。
その結果,会話中の話者を積極的に追跡しながら,人間の頭部の動きを自然に模倣することに成功した。
論文 参考訳(メタデータ) (2024-07-16T17:08:40Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot
Interaction [34.978017200500005]
我々は,HRI(Human-Robot Interactions)の問題に対処するために,MILD(Multimodal Interactive Latent Dynamics)を提案する。
変分オートエンコーダ(VAE)の潜時空間における相互作用エージェントの結合分布をモデル化するために,Hidden Semi-Markov Models (HSMMs) を用いて実演から相互作用ダイナミクスを学習する。
MILDは、観察されたエージェント(人間の)軌道に条件付けされたときに、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
論文 参考訳(メタデータ) (2022-10-22T11:25:11Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。