論文の概要: NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2502.16718v1
- Date: Sun, 23 Feb 2025 21:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:53.345065
- Title: NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction
- Title(参考訳): NatSGLD:自然とロボットのインタラクションにおけるロボット学習のための音声・ジェスチャー・論理・デモによるデータセット
- Authors: Snehesh Shrestha, Yantian Zha, Saketh Banagiri, Ge Gao, Yiannis Aloimonos, Cornelia Fermüller,
- Abstract要約: このデータセットは、HRIと機械学習の交差点における研究の基盤となるリソースとして機能する。
マルチモーダルなインプットと詳細なアノテーションを提供することで、NatSGLDは、マルチモーダルなインストラクションのフォロー、計画認識、実証から人間に推奨できる強化学習といった分野の探索を可能にする。
- 参考スコア(独自算出の注目度): 24.649184273236237
- License:
- Abstract: Recent advances in multimodal Human-Robot Interaction (HRI) datasets emphasize the integration of speech and gestures, allowing robots to absorb explicit knowledge and tacit understanding. However, existing datasets primarily focus on elementary tasks like object pointing and pushing, limiting their applicability to complex domains. They prioritize simpler human command data but place less emphasis on training robots to correctly interpret tasks and respond appropriately. To address these gaps, we present the NatSGLD dataset, which was collected using a Wizard of Oz (WoZ) method, where participants interacted with a robot they believed to be autonomous. NatSGLD records humans' multimodal commands (speech and gestures), each paired with a demonstration trajectory and a Linear Temporal Logic (LTL) formula that provides a ground-truth interpretation of the commanded tasks. This dataset serves as a foundational resource for research at the intersection of HRI and machine learning. By providing multimodal inputs and detailed annotations, NatSGLD enables exploration in areas such as multimodal instruction following, plan recognition, and human-advisable reinforcement learning from demonstrations. We release the dataset and code under the MIT License at https://www.snehesh.com/natsgld/ to support future HRI research.
- Abstract(参考訳): マルチモーダルヒューマンロボットインタラクション(HRI)データセットの最近の進歩は、音声とジェスチャーの統合を強調し、ロボットが明示的な知識と暗黙の理解を吸収できるようにする。
しかし、既存のデータセットは主にオブジェクトポインティングやプッシュといった基本的なタスクに重点を置いており、複雑なドメインに適用性を制限する。
より単純な人間のコマンドデータを優先するが、タスクを正しく解釈し、適切に応答するようにロボットを訓練することに重点を置いている。
これらのギャップに対処するために,Wizard of Oz (WoZ) 法を用いて収集したNatSGLDデータセットを提案する。
NatSGLDは、人間のマルチモーダルコマンド(音声とジェスチャー)を記録し、それぞれに、命令されたタスクの地味な解釈を提供するデモ軌道とLTL(Linear Temporal Logic)公式を組み合わせている。
このデータセットは、HRIと機械学習の交差点における研究の基盤となるリソースとして機能する。
マルチモーダルなインプットと詳細なアノテーションを提供することで、NatSGLDは、マルチモーダルなインストラクションのフォロー、計画認識、実証から人間に推奨できる強化学習といった分野の探索を可能にする。
我々は、将来のHRI研究をサポートするために、MIT Licenseの下でデータセットとコードをhttps://www.snehesh.com/natsgld/でリリースします。
関連論文リスト
- doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。