論文の概要: MRPoS: Mixed Reality-Based Robot Navigation Interface Using Spatial Pointing and Speech with Large Language Model
- arxiv url: http://arxiv.org/abs/2603.13313v1
- Date: Wed, 04 Mar 2026 08:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 04:56:19.729439
- Title: MRPoS: Mixed Reality-Based Robot Navigation Interface Using Spatial Pointing and Speech with Large Language Model
- Title(参考訳): MRPoS:大言語モデルを用いた空間的ポインティングと音声を用いた複合現実感型ロボットナビゲーションインタフェース
- Authors: Eduardo Iglesius, Masato Kobayashi, Yuki Uranishi,
- Abstract要約: 本稿では,空間的ポインティングと音声(MRPoS)を用いた複合現実感型ロボットナビゲーションインタフェースを提案する。
このフレームワークは,空間的ポインティングとLarge Language Model(LLM)に基づく音声インタラクションを組み合わせた,複雑な手ジェスチャーを自然なマルチモーダルインタフェースに置き換える。
両方の情報を活用することにより、MR技術によって可視化されたナビゲーション目標に言語意図を翻訳する。
- 参考スコア(独自算出の注目度): 1.552282932199974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements have made robot navigation more intuitive by transitioning from traditional 2D displays to spatially aware Mixed Reality (MR) systems. However, current MR interfaces often rely on manual "air tap" gestures for goal placement, which can be repetitive and physically demanding, especially for beginners. This paper proposes the Mixed Reality-Based Robot Navigation Interface using Spatial Pointing and Speech (MRPoS). This novel framework replaces complex hand gestures with a natural, multimodal interface combining spatial pointing with Large Language Model (LLM)-based speech interaction. By leveraging both information, the system translates verbal intent into navigation goals visualized by MR technology. Comprehensive experiments comparing MRPoS against conventional gesture-based systems demonstrate that our approach significantly reduces task completion time and workload, providing a more accessible and efficient interface. For additional material, please check: https://mertcookimg.github.io/mrpos
- Abstract(参考訳): 近年の進歩により、従来の2Dディスプレイから空間認識型MR(Mixed Reality)システムに移行することで、ロボットナビゲーションをより直感的になった。
しかし、現在のMRインターフェースは手動の「エアタップ」ジェスチャーをゴール配置に頼り、特に初心者にとっては反復的かつ物理的に要求される。
本稿では,MRPoSを用いた複合現実感型ロボットナビゲーションインタフェースを提案する。
このフレームワークは,空間的ポインティングとLarge Language Model(LLM)に基づく音声インタラクションを組み合わせた,複雑な手ジェスチャーを自然なマルチモーダルインタフェースに置き換える。
両方の情報を活用することにより、MR技術によって可視化されたナビゲーション目標に言語意図を翻訳する。
MRPoSと従来のジェスチャベースシステムを比較した総合的な実験により,本手法はタスク完了時間と作業負荷を大幅に低減し,よりアクセシブルで効率的なインターフェースを提供することを示した。
追加資料については、https://mertcookimg.github.io/mrposを参照してください。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - Direct Contact-Tolerant Motion Planning With Vision Language Models [64.48049143625063]
乱雑な環境でのナビゲーションは、しばしばロボットが可動または変形可能な物体との接触を許容する必要がある。
本稿では,視覚言語モデル(VLM)を直接的視点認識とナビゲーションに統合したDCTプランナを提案する。
我々はIsaac Simと本物のカーライクなロボットにDCTを実装し、移動障害物のある散らばった環境において、DCTが堅牢で効率的なナビゲーションを実現することを実証した。
論文 参考訳(メタデータ) (2026-03-05T10:05:00Z) - RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - An Embodied AR Navigation Agent: Integrating BIM with Retrieval-Augmented Generation for Language Guidance [8.217670177708632]
本稿では,柔軟で言語駆動型の目標探索と経路計画を支援するARナビゲーションシステムを提案する。
このシステムは、大規模な言語モデルに基づいて構築された3つの言語エージェント、Triage, Search, Responseを編成する。
現実世界のユーザ調査では、システムユーザビリティ尺度(SUS)スコアが80.5に達し、優れたユーザビリティを示している。
論文 参考訳(メタデータ) (2025-08-10T15:13:23Z) - OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。
ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。
室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文 参考訳(メタデータ) (2025-07-24T02:05:28Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。
本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。
メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文 参考訳(メタデータ) (2024-03-22T23:12:28Z) - Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models [8.668211481067457]
Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。
Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。
VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
論文 参考訳(メタデータ) (2023-10-11T23:17:43Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。