論文の概要: NavAI: A Generalizable LLM Framework for Navigation Tasks in Virtual Reality Environments
- arxiv url: http://arxiv.org/abs/2601.03251v1
- Date: Tue, 06 Jan 2026 18:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.067676
- Title: NavAI: A Generalizable LLM Framework for Navigation Tasks in Virtual Reality Environments
- Title(参考訳): NavAI:バーチャルリアリティ環境におけるナビゲーションタスクのための汎用LLMフレームワーク
- Authors: Xue Qin, Matthew DiGiovanni,
- Abstract要約: NavAIは、基本的なアクションと複雑な目標指向タスクの両方をサポートする、一般化可能な大規模言語モデル(LLM)ベースのナビゲーションフレームワークである。
我々は,3つの異なるVR環境におけるNavAIを目標指向および探索的タスクにより評価した。
その結果,ゴール指向タスクでは89%の成功率で高い精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.6732076464377242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Navigation is one of the fundamental tasks for automated exploration in Virtual Reality (VR). Existing technologies primarily focus on path optimization in 360-degree image datasets and 3D simulators, which cannot be directly applied to immersive VR environments. To address this gap, we present NavAI, a generalizable large language model (LLM)-based navigation framework that supports both basic actions and complex goal-directed tasks across diverse VR applications. We evaluate NavAI in three distinct VR environments through goal-oriented and exploratory tasks. Results show that it achieves high accuracy, with an 89% success rate in goal-oriented tasks. Our analysis also highlights current limitations of relying entirely on LLMs, particularly in scenarios that require dynamic goal assessment. Finally, we discuss the limitations observed during the experiments and offer insights for future research directions.
- Abstract(参考訳): ナビゲーションは、バーチャルリアリティ(VR)における自動探索の基本的なタスクの1つである。
既存の技術は主に360度画像データセットと3Dシミュレータのパス最適化に重点を置いており、没入型VR環境には直接適用できない。
このギャップに対処するため、NavAIは、多様なVRアプリケーションにまたがる基本的なアクションと複雑な目標指向タスクの両方をサポートする、一般化可能な大規模言語モデル(LLM)ベースのナビゲーションフレームワークである。
我々は,3つの異なるVR環境におけるNavAIを目標指向および探索的タスクにより評価した。
その結果,ゴール指向タスクでは89%の成功率で高い精度が得られることがわかった。
我々の分析は、特に動的ゴールアセスメントを必要とするシナリオにおいて、LLMに完全に依存する現在の制限を強調しています。
最後に,実験中に観測された限界について考察し,今後の研究方向性について考察する。
関連論文リスト
- History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - Navigation with VLM framework: Towards Going to Any Language [4.368039454973151]
視覚言語モデル(VLM)は、言語データと視覚データの両方で推論できる顕著な能力を示している。
本稿では,オープンソースのVLMを活用したトレーニングフリーフレームワークであるNavigation with VLM(NavVLM)を紹介し,ロボットが効果的にナビゲートできるようにする。
論文 参考訳(メタデータ) (2024-09-18T02:29:00Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。