論文の概要: Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant
- arxiv url: http://arxiv.org/abs/2409.20548v2
- Date: Mon, 10 Mar 2025 06:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:26.027850
- Title: Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant
- Title(参考訳): Robi Butler:家庭用ロボットアシスタントとのマルチモーダルリモートインタラクション
- Authors: Anxing Xiao, Nuwan Janaka, Tianrun Hu, Anshul Gupta, Kaixin Li, Cunjun Yu, David Hsu,
- Abstract要約: Robi Butlerは、シームレスなマルチモーダル遠隔操作を可能にする家庭用ロボットアシスタントだ。
人間のユーザは、一人称ビューから環境を監視し、音声やテキストのコマンドを発行し、手指しジェスチャーでターゲットオブジェクトを指定できる。
- 参考スコア(独自算出の注目度): 19.28028454264679
- License:
- Abstract: Imagine a future when we can Zoom-call a robot to manage household chores remotely. This work takes one step in this direction. Robi Butler is a new household robot assistant that enables seamless multimodal remote interaction. It allows the human user to monitor its environment from a first-person view, issue voice or text commands, and specify target objects through hand-pointing gestures. At its core, a high-level behavior module, powered by Large Language Models (LLMs), interprets multimodal instructions to generate multistep action plans. Each plan consists of open-vocabulary primitives supported by vision-language models, enabling the robot to process both textual and gestural inputs. Zoom provides a convenient interface to implement remote interactions between the human and the robot. The integration of these components allows Robi Butler to ground remote multimodal instructions in real-world home environments in a zero-shot manner. We evaluated the system on various household tasks, demonstrating its ability to execute complex user commands with multimodal inputs. We also conducted a user study to examine how multimodal interaction influences user experiences in remote human-robot interaction. These results suggest that with the advances in robot foundation models, we are moving closer to the reality of remote household robot assistants.
- Abstract(参考訳): リモートで家事を管理するロボットをZoom-callで呼び出せる未来を想像してみてほしい。
この仕事はこの方向に一歩踏み出す。
Robi Butlerは、シームレスなマルチモーダル遠隔操作を可能にする家庭用ロボットアシスタントだ。
人間のユーザは、一人称ビューから環境を監視し、音声やテキストのコマンドを発行し、手指しジェスチャーでターゲットオブジェクトを指定できる。
コアとなるのは、Large Language Models (LLM) を利用した高レベルの動作モジュールで、マルチモーダル命令を解釈してマルチステップアクションプランを生成する。
それぞれのプランは、視覚言語モデルでサポートされているオープン語彙プリミティブで構成されており、ロボットはテキスト入力とジェスチャー入力の両方を処理できる。
Zoomは、人間とロボットの間のリモートインタラクションを実装するための便利なインターフェースを提供する。
これらのコンポーネントの統合により、Robi Butlerはリモートマルチモーダルインストラクションを実環境の家庭環境にゼロショットで構築できる。
マルチモーダル入力による複雑なユーザコマンドの実行能力を示した。
また,遠隔操作におけるマルチモーダルインタラクションがユーザ体験に与える影響について検討した。
これらの結果は,ロボット基礎モデルの進歩に伴い,遠隔操作ロボットアシスタントの現実に近づきつつあることを示唆している。
関連論文リスト
- Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。