論文の概要: VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2502.00931v3
- Date: Wed, 05 Mar 2025 04:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:40.424952
- Title: VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning
- Title(参考訳): VL-Nav:空間推論を用いたリアルタイム視覚言語ナビゲーション
- Authors: Yi Du, Taimeng Fu, Zhuoqun Chen, Bowen Li, Shaoshu Su, Zhipeng Zhao, Chen Wang,
- Abstract要約: 低消費電力ロボットに効率的な空間推論を組み込んだ視覚言語ナビゲーション(VL-Nav)システムを提案する。
ロボットを誘導するための単一の画像レベルの特徴類似性に依存する従来の手法とは異なり、本手法は画素単位の視覚言語機能と好奇心駆動探索を統合している。
VL-Navは、全体の成功率86.3%に達し、以前の手法を44.15%上回った。
- 参考スコア(独自算出の注目度): 11.140494493881075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation in unknown environments is crucial for mobile robots. In scenarios such as household assistance and rescue, mobile robots need to understand a human command, such as "find a person wearing black". We present a novel vision-language navigation (VL-Nav) system that integrates efficient spatial reasoning on low-power robots. Unlike prior methods that rely on a single image-level feature similarity to guide a robot, our method integrates pixel-wise vision-language features with curiosity-driven exploration. This approach enables robust navigation to human-instructed instances across diverse environments. We deploy VL-Nav on a four-wheel mobile robot and evaluate its performance through comprehensive navigation tasks in both indoor and outdoor environments, spanning different scales and semantic complexities. Remarkably, VL-Nav operates at a real-time frequency of 30 Hz with a Jetson Orin NX, highlighting its ability to conduct efficient vision-language navigation. Results show that VL-Nav achieves an overall success rate of 86.3%, outperforming previous methods by 44.15%.
- Abstract(参考訳): 未知環境における視覚言語ナビゲーションは、移動ロボットにとって不可欠である。
家庭の援助や救助のようなシナリオでは、移動ロボットは「黒を着た人を仕留める」といった人間の命令を理解する必要がある。
低消費電力ロボットに効率的な空間推論を組み込んだ視覚言語ナビゲーション(VL-Nav)システムを提案する。
ロボットを誘導するための単一の画像レベルの特徴類似性に依存する従来の手法とは異なり、本手法は画素単位の視覚言語機能と好奇心駆動探索を統合している。
このアプローチにより、さまざまな環境にまたがるヒューマンインストラクトされたインスタンスへの堅牢なナビゲーションが可能になる。
我々は、VL-Navを4輪移動ロボット上に展開し、室内と屋外の両方の総合的なナビゲーションタスクを通じて、異なるスケールとセマンティックな複雑さにまたがって、その性能を評価する。
注目すべきは、VL-NavがJetson Orin NXで30Hzのリアルタイム周波数で動作することだ。
その結果、VL-Navの総成功率は86.3%となり、従来の手法よりも44.15%向上した。
関連論文リスト
- Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [41.75629159747654]
社会に適合したナビゲーション知識を蒸留する新しいアプローチであるVi-LAD(Vision-Language Attention Distillation)を紹介する。
Vi-LADは、事前学習された視覚行動モデルから抽出された中間注意マップを用いたトランスフォーマーベースモデルを微調整する。
我々は,ハスキー車輪付きロボットによる実世界実験を通じて,我々のアプローチを検証するとともに,最先端のナビゲーション手法に対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-03-12T20:38:23Z) - Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach [5.009635912655658]
本稿では,手書き地図ナビゲーション(HAM-Nav)アーキテクチャを提案する。
HAM-Navは、トポロジカルマップに基づく位置推定のためのユニークな選択型視覚アソシエーション・プロンプティング・アプローチを統合する。
車輪付きロボットと脚付きロボットを用いてシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2025-01-31T19:03:33Z) - NaVILA: Legged Robot Vision-Language-Action Model for Navigation [61.790547333844515]
人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [19.997935470257794]
本稿では,コモンセンス認識ナビゲーションのための視覚的および言語的指示を組み合わせたフレームワークであるCANVASを提案する。
その成功は模倣学習によって引き起こされ、ロボットは人間のナビゲーション行動から学ぶことができる。
実験の結果,CANVASはすべての環境において,強力なルールベースシステムであるROS NavStackよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:34:45Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Audio Visual Language Maps for Robot Navigation [30.33041779258644]
音声, 視覚, 言語情報からのクロスモーダル情報を格納するための3次元空間地図表現を統一したAVLMap(Audio-Visual-Language Map)を提案する。
AVLMapsは、インターネット規模で事前訓練されたマルチモーダル基礎モデルのオープン語彙機能を統合する。
ナビゲーションの文脈において、AVLMapsは、例えば、テキスト記述、画像、ランドマークの音声スニペットなどのマルチモーダルクエリに基づいて、ロボットシステムが地図内の目標をインデックスできることを示す。
論文 参考訳(メタデータ) (2023-03-13T23:17:51Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文 参考訳(メタデータ) (2020-11-07T16:49:04Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z) - APPLD: Adaptive Planner Parameter Learning from Demonstration [48.63930323392909]
本稿では,既存のナビゲーションシステムを新しい複雑な環境に適用可能な,適応プランナー学習(Adaptive Planner Learning from Demonstration)のAPPLDを紹介する。
APPLDは異なる環境で異なるナビゲーションシステムを実行する2つのロボットで検証されている。
実験結果から,APPLDはナビゲーションシステムよりも,デフォルトパラメータや専門家パラメータ,さらには人間実証者自体よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-31T21:15:16Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。