論文の概要: Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions
- arxiv url: http://arxiv.org/abs/2508.16143v1
- Date: Fri, 22 Aug 2025 07:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.282406
- Title: Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions
- Title(参考訳): 目障りな外見指導のための対話的質問を用いたマルチモーダル・エクソノラ分解能
- Authors: Akira Oyama, Shoichi Hasegawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi,
- Abstract要約: 生活支援ロボットは、実証者を含むあいまいな言葉の指示を解釈しなければならない。
既存のエクソノラ分解能のアプローチは、視覚データに依存している。
音声ソースのローカライゼーション(SSL)、セマンティックマッピング、視覚言語モデル(VLM)、対話型質問機能を活用したマルチモーダル・エクソノラ解決フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.763690463901024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Daily life support robots must interpret ambiguous verbal instructions involving demonstratives such as ``Bring me that cup,'' even when objects or users are out of the robot's view. Existing approaches to exophora resolution primarily rely on visual data and thus fail in real-world scenarios where the object or user is not visible. We propose Multimodal Interactive Exophora resolution with user Localization (MIEL), which is a multimodal exophora resolution framework leveraging sound source localization (SSL), semantic mapping, visual-language models (VLMs), and interactive questioning with GPT-4o. Our approach first constructs a semantic map of the environment and estimates candidate objects from a linguistic query with the user's skeletal data. SSL is utilized to orient the robot toward users who are initially outside its visual field, enabling accurate identification of user gestures and pointing directions. When ambiguities remain, the robot proactively interacts with the user, employing GPT-4o to formulate clarifying questions. Experiments in a real-world environment showed results that were approximately 1.3 times better when the user was visible to the robot and 2.0 times better when the user was not visible to the robot, compared to the methods without SSL and interactive questioning. The project website is https://emergentsystemlabstudent.github.io/MIEL/.
- Abstract(参考訳): 日常生活支援ロボットは、対象物やユーザがロボットの視点外にいる場合でも、「そのコップを送れ」といった実証的行為を含むあいまいな言葉の指示を解釈しなければならない。
既存のエクソノラ解決のアプローチは、主に視覚データに依存しているため、オブジェクトやユーザが見えない現実世界のシナリオでは失敗する。
本稿では,マルチモーダル・インタラクティブ・エクソフォラ・レゾリューションとユーザ・ローカライゼーション(MIEL)を提案する。これは音源のローカライゼーション(SSL),セマンティックマッピング,視覚言語モデル(VLM),GPT-4oによる対話的質問機能を活用したマルチモーダル・エクソフォラ・レゾリューション・フレームワークである。
提案手法は,まず環境のセマンティックマップを構築し,ユーザの骨格データを用いた言語クエリから候補オブジェクトを推定する。
SSLは、当初視野外にいるユーザに対してロボットを指向させることで、ユーザのジェスチャーと指示方向の正確な識別を可能にする。
あいまいさが残ると、ロボットは積極的にユーザと対話し、GPT-4oを用いて質問を明確にする。
実環境における実験では、ユーザがロボットに目視されている場合の約1.3倍、ユーザがロボットに目視されていない場合の2.0倍、SSLや対話的質問がない場合の約1.3倍の結果が得られた。
プロジェクトのWebサイトはhttps://emergentsystemlabstudent.github.io/MIEL/である。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual
Language Grounding [10.036997080009462]
DRAGONは対話システムと環境と自然言語を関連付ける能力を備えた誘導ロボットである。
ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。
本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。
論文 参考訳(メタデータ) (2023-07-13T17:46:15Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。