論文の概要: Robi Butler: Remote Multimodal Interactions with Household Robot Assistant
- arxiv url: http://arxiv.org/abs/2409.20548v1
- Date: Mon, 30 Sep 2024 17:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 02:20:11.649989
- Title: Robi Butler: Remote Multimodal Interactions with Household Robot Assistant
- Title(参考訳): Robi Butler:家庭用ロボットアシスタントとのリモートマルチモーダルインタラクション
- Authors: Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu,
- Abstract要約: 本稿では,リモートユーザとのマルチモーダルインタラクションを実現する家庭用ロボットシステムであるRobi Butlerを紹介する。
高度な通信インターフェースに基づいて、Robi Butlerを使用すると、ユーザーはロボットの状態を監視し、テキストや音声の指示を送り、手指しでターゲットオブジェクトを選択することができる。
- 参考スコア(独自算出の注目度): 19.28028454264679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Robi Butler, a novel household robotic system that enables multimodal interactions with remote users. Building on the advanced communication interfaces, Robi Butler allows users to monitor the robot's status, send text or voice instructions, and select target objects by hand pointing. At the core of our system is a high-level behavior module, powered by Large Language Models (LLMs), that interprets multimodal instructions to generate action plans. These plans are composed of a set of open vocabulary primitives supported by Vision Language Models (VLMs) that handle both text and pointing queries. The integration of the above components allows Robi Butler to ground remote multimodal instructions in the real-world home environment in a zero-shot manner. We demonstrate the effectiveness and efficiency of this system using a variety of daily household tasks that involve remote users giving multimodal instructions. Additionally, we conducted a user study to analyze how multimodal interactions affect efficiency and user experience during remote human-robot interaction and discuss the potential improvements.
- Abstract(参考訳): 本稿では,リモートユーザとのマルチモーダルインタラクションを実現する家庭用ロボットシステムであるRobi Butlerを紹介する。
高度な通信インターフェースに基づいて、Robi Butlerを使用すると、ユーザーはロボットの状態を監視し、テキストや音声の指示を送り、手指しでターゲットオブジェクトを選択することができる。
我々のシステムの中核は、多モード命令を解釈して行動計画を生成するLarge Language Models (LLMs) を利用した高レベルの行動モジュールである。
これらの計画は、テキストとポインティングクエリの両方を扱うビジョン言語モデル(VLM)によってサポートされているオープン語彙プリミティブのセットで構成されている。
上記のコンポーネントの統合により、Robi Butlerはリモートマルチモーダルインストラクションを現実世界のホーム環境にゼロショットで構築できる。
本システムの有効性と効率性は,遠隔ユーザによるマルチモーダルな指示を含む日常業務の多種多様さを用いて実証する。
さらに,マルチモーダルインタラクションが遠隔ロボットインタラクションにおける効率とユーザエクスペリエンスに与える影響を解析し,潜在的な改善について検討した。
関連論文リスト
- ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation,
Generation and Editing [99.80742991922992]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。
LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文 参考訳(メタデータ) (2023-11-01T15:13:43Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。