論文の概要: NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model
- arxiv url: http://arxiv.org/abs/2503.09335v1
- Date: Wed, 12 Mar 2025 12:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:00.704409
- Title: NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model
- Title(参考訳): NVP-HRI:大規模言語モデルによるゼロショット自然音声と姿勢に基づくヒューマンロボットインタラクション
- Authors: Yuzhi Lai, Shenghai Yuan, Youssef Nassar, Mingyu Fan, Thomas Weber, Matthias Rätsch,
- Abstract要約: 本稿では音声コマンドと視覚姿勢を組み合わせた直感的マルチモーダルHRIパラダイムであるNVP-HRIを紹介する。
NVP-HRIは、事前の知識がなくてもゼロショット予測による新しいオブジェクトとの対話を可能にする。
ユニバーサルロボットを用いた多様な実世界のタスクの評価では、従来のジェスチャー制御よりも59.2%の効率向上が見られた。
- 参考スコア(独自算出の注目度): 9.180155141926186
- License:
- Abstract: Effective Human-Robot Interaction (HRI) is crucial for future service robots in aging societies. Existing solutions are biased toward only well-trained objects, creating a gap when dealing with new objects. Currently, HRI systems using predefined gestures or language tokens for pretrained objects pose challenges for all individuals, especially elderly ones. These challenges include difficulties in recalling commands, memorizing hand gestures, and learning new names. This paper introduces NVP-HRI, an intuitive multi-modal HRI paradigm that combines voice commands and deictic posture. NVP-HRI utilizes the Segment Anything Model (SAM) to analyze visual cues and depth data, enabling precise structural object representation. Through a pre-trained SAM network, NVP-HRI allows interaction with new objects via zero-shot prediction, even without prior knowledge. NVP-HRI also integrates with a large language model (LLM) for multimodal commands, coordinating them with object selection and scene distribution in real time for collision-free trajectory solutions. We also regulate the action sequence with the essential control syntax to reduce LLM hallucination risks. The evaluation of diverse real-world tasks using a Universal Robot showcased up to 59.2\% efficiency improvement over traditional gesture control, as illustrated in the video https://youtu.be/EbC7al2wiAc. Our code and design will be openly available at https://github.com/laiyuzhi/NVP-HRI.git.
- Abstract(参考訳): 高齢化社会における将来のサービスロボットには,効果的なヒューマンロボットインタラクション(HRI)が不可欠である。
既存のソリューションは、十分に訓練されたオブジェクトのみに偏りがあり、新しいオブジェクトを扱うときにギャップが生じる。
現在、事前定義されたジェスチャーや言語トークンを用いた事前訓練対象のHRIシステムは、すべての個人、特に高齢者に対して課題を提起している。
これらの課題には、コマンドのリコールの困難、手振りの記憶、新しい名前の学習が含まれる。
本稿では音声コマンドと視覚姿勢を組み合わせた直感的マルチモーダルHRIパラダイムであるNVP-HRIを紹介する。
NVP-HRIは、SAM(Segment Anything Model)を使用して、視覚的手がかりと深度データを分析し、正確な構造的オブジェクト表現を可能にする。
事前訓練されたSAMネットワークを通じて、NVP-HRIは、事前知識がなくてもゼロショット予測による新しいオブジェクトとの対話を可能にする。
NVP-HRIはまた、多モーダルコマンドのための大規模言語モデル(LLM)と統合し、衝突のない軌道解のためのオブジェクト選択とシーン分布をリアルタイムで調整する。
また,LLM幻覚リスクを低減するために,本態性制御構文を用いてアクションシーケンスを制御した。
ユニバーサルロボットを用いた多種多様な実世界のタスクの評価は、従来のジェスチャー制御よりも59.2倍の効率向上を示した。
私たちのコードと設計はhttps://github.com/laiyuzhi/NVP-HRI.git.comで公開されます。
関連論文リスト
- doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - NaVILA: Legged Robot Vision-Language-Action Model for Navigation [60.00462044102051]
人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot
Interaction [34.978017200500005]
我々は,HRI(Human-Robot Interactions)の問題に対処するために,MILD(Multimodal Interactive Latent Dynamics)を提案する。
変分オートエンコーダ(VAE)の潜時空間における相互作用エージェントの結合分布をモデル化するために,Hidden Semi-Markov Models (HSMMs) を用いて実演から相互作用ダイナミクスを学習する。
MILDは、観察されたエージェント(人間の)軌道に条件付けされたときに、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
論文 参考訳(メタデータ) (2022-10-22T11:25:11Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。