論文の概要: An Embodied AR Navigation Agent: Integrating BIM with Retrieval-Augmented Generation for Language Guidance
- arxiv url: http://arxiv.org/abs/2508.16602v1
- Date: Sun, 10 Aug 2025 15:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.569252
- Title: An Embodied AR Navigation Agent: Integrating BIM with Retrieval-Augmented Generation for Language Guidance
- Title(参考訳): 身体的ARナビゲーションエージェント:言語指導のためのBIMと検索拡張生成の統合
- Authors: Hsuan-Kung Yang, Tsu-Ching Hsiao, Ryoichiro Oka, Ryuya Nishino, Satoko Tofukuji, Norimasa Kobori,
- Abstract要約: 本稿では,柔軟で言語駆動型の目標探索と経路計画を支援するARナビゲーションシステムを提案する。
このシステムは、大規模な言語モデルに基づいて構築された3つの言語エージェント、Triage, Search, Responseを編成する。
現実世界のユーザ調査では、システムユーザビリティ尺度(SUS)スコアが80.5に達し、優れたユーザビリティを示している。
- 参考スコア(独自算出の注目度): 8.217670177708632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Delivering intelligent and adaptive navigation assistance in augmented reality (AR) requires more than visual cues, as it demands systems capable of interpreting flexible user intent and reasoning over both spatial and semantic context. Prior AR navigation systems often rely on rigid input schemes or predefined commands, which limit the utility of rich building data and hinder natural interaction. In this work, we propose an embodied AR navigation system that integrates Building Information Modeling (BIM) with a multi-agent retrieval-augmented generation (RAG) framework to support flexible, language-driven goal retrieval and route planning. The system orchestrates three language agents, Triage, Search, and Response, built on large language models (LLMs), which enables robust interpretation of open-ended queries and spatial reasoning using BIM data. Navigation guidance is delivered through an embodied AR agent, equipped with voice interaction and locomotion, to enhance user experience. A real-world user study yields a System Usability Scale (SUS) score of 80.5, indicating excellent usability, and comparative evaluations show that the embodied interface can significantly improves users' perception of system intelligence. These results underscore the importance and potential of language-grounded reasoning and embodiment in the design of user-centered AR navigation systems.
- Abstract(参考訳): 拡張現実(AR)においてインテリジェントで適応的なナビゲーションアシストを提供するには、フレキシブルなユーザ意図と推論を空間的および意味的コンテキストの両方で解釈できるシステムを必要とするため、視覚的な手がかり以上のものが必要である。
以前のARナビゲーションシステムは、しばしば厳格な入力スキームや事前定義されたコマンドに依存しており、リッチなビルディングデータの有用性を制限し、自然な相互作用を妨げる。
本研究では,ビルディング情報モデリング(BIM)とマルチエージェント検索拡張生成(RAG)フレームワークを統合し,柔軟で言語主導の目標検索と経路計画を支援する,組込みARナビゲーションシステムを提案する。
このシステムは、大規模言語モデル(LLM)上に構築された3つの言語エージェント、Triage, Search, Responseを編成し、オープンなクエリの堅牢な解釈と、BIMデータを用いた空間的推論を可能にする。
ナビゲーションガイダンスは、音声インタラクションと移動機能を備えた組み込みARエージェントを通じて提供され、ユーザエクスペリエンスが向上する。
実世界のユーザスタディでは,システムユーザビリティ尺度(SUS)スコアが80.5となり,ユーザビリティが向上した。
これらの結果は,ユーザ中心のARナビゲーションシステムの設計において,言語による推論と具体化の重要性と可能性を裏付けるものである。
関連論文リスト
- Natural Language-Driven Viewpoint Navigation for Volume Exploration via Semantic Block Representation [7.16051391212397]
本稿では、自然言語の相互作用を利用してボリュームデータ探索を強化する新しいフレームワークを提案する。
提案手法では,ボリュームブロックを符号化し,基礎構造を捕捉・識別する。
さらにCLIP Scoreメカニズムが組み込まれており、ナビゲーションをガイドするブロックに意味情報を提供する。
論文 参考訳(メタデータ) (2025-08-09T04:44:59Z) - NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving [10.597463021650382]
NavigSceneは、自律運転システム内の人間のような運転環境をシミュレートする補助的なナビゲーション誘導自然言語データセットである。
NavigSceneを活用するための3つのパラダイムを開発する。(1)ナビゲーションコンテキストをプロンプトアプローチに組み込むことで視覚言語モデルを強化するナビゲーション誘導推論、(2)視覚言語モデル応答を改善するための直接参照最適化を拡張する強化学習手法であるナビゲーション誘導推論、(3)ナビゲーション誘導視覚言語モデルと特徴融合による従来の運転モデルを統合するナビゲーション誘導言語推論モデルである。
論文 参考訳(メタデータ) (2025-07-07T17:37:01Z) - Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。
本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。
メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文 参考訳(メタデータ) (2024-03-22T23:12:28Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。