Fugu-MT 論文翻訳(概要): NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot Learning in Natural Human-Robot Interaction

論文の概要: NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot Learning in Natural Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2403.02274v1
Date: Mon, 4 Mar 2024 18:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:48:58.029105
Title: NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot Learning in Natural Human-Robot Interaction
Title（参考訳）: NatSGD:自然とロボットのインタラクションにおけるロボット学習のための音声・ジェスチャー・デモ付きデータセット
Authors: Snehesh Shrestha, Yantian Zha, Saketh Banagiri, Ge Gao, Yiannis Aloimonos, Cornelia Fermuller
Abstract要約: HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
参考スコア（独自算出の注目度）: 19.65778558341053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in multimodal Human-Robot Interaction (HRI) datasets have highlighted the fusion of speech and gesture, expanding robots' capabilities to absorb explicit and implicit HRI insights. However, existing speech-gesture HRI datasets often focus on elementary tasks, like object pointing and pushing, revealing limitations in scaling to intricate domains and prioritizing human command data over robot behavior records. To bridge these gaps, we introduce NatSGD, a multimodal HRI dataset encompassing human commands through speech and gestures that are natural, synchronized with robot behavior demonstrations. NatSGD serves as a foundational resource at the intersection of machine learning and HRI research, and we demonstrate its effectiveness in training robots to understand tasks through multimodal human commands, emphasizing the significance of jointly considering speech and gestures. We have released our dataset, simulator, and code to facilitate future research in human-robot interaction system learning; access these resources at https://www.snehesh.com/natsgd/
Abstract（参考訳）: マルチモーダルヒューマンロボットインタラクション(HRI)データセットの最近の進歩は、音声とジェスチャーの融合を強調し、ロボットの能力を拡張して、明示的で暗黙的なHRIの洞察を吸収している。しかし、既存の音声認識のHRIデータセットは、オブジェクトのポインティングやプッシュ、複雑なドメインへのスケーリングの制限、ロボットの行動記録に対する人間のコマンドデータの優先順位付けなど、基本的なタスクに重点を置いていることが多い。これらのギャップを埋めるために、ロボットの動作デモと自然に同期した音声やジェスチャーを通じて人間のコマンドを包含するマルチモーダルHRIデータセットであるNatSGDを導入する。 NatSGDは,機械学習とHRI研究の共通点における基礎資料として機能し,マルチモーダルなヒューマンコマンドによるタスク理解のためのロボット訓練の有効性を実証し,音声とジェスチャーを併用することの重要性を強調した。私たちは、人間とロボットのインタラクションシステム学習における将来の研究を促進するために、データセット、シミュレータ、コードをリリースした。

関連論文リスト

Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction [24.649184273236237]
このデータセットは、HRIと機械学習の交差点における研究の基盤となるリソースとして機能する。マルチモーダルなインプットと詳細なアノテーションを提供することで、NatSGLDは、マルチモーダルなインストラクションのフォロー、計画認識、実証から人間に推奨できる強化学習といった分野の探索を可能にする。
論文参考訳（メタデータ） (2025-02-23T21:27:06Z)
Imitation of human motion achieves natural head movements for humanoid robots in an active-speaker detection task [2.8220015774219567]
頭の動きは社会的人間と人間の相互作用に不可欠である。そこで本研究では,直型ヒューマノイドロボットの頭部運動生成に生成型AIパイプラインを用いた。その結果,会話中の話者を積極的に追跡しながら,人間の頭部の動きを自然に模倣することに成功した。
論文参考訳（メタデータ） (2024-07-16T17:08:40Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-12T11:34:43Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文参考訳（メタデータ） (2023-11-27T23:56:59Z)
RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文参考訳（メタデータ） (2023-07-02T15:33:31Z)
MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot Interaction [34.978017200500005]
我々は,HRI(Human-Robot Interactions)の問題に対処するために,MILD(Multimodal Interactive Latent Dynamics)を提案する。変分オートエンコーダ(VAE)の潜時空間における相互作用エージェントの結合分布をモデル化するために,Hidden Semi-Markov Models (HSMMs) を用いて実演から相互作用ダイナミクスを学習する。 MILDは、観察されたエージェント(人間の)軌道に条件付けされたときに、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
論文参考訳（メタデータ） (2022-10-22T11:25:11Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-12T18:02:15Z)
Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文参考訳（メタデータ） (2020-11-06T07:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。