論文の概要: Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2504.08806v1
- Date: Wed, 09 Apr 2025 02:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:19.629098
- Title: Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための空間推論機能を有する内在型エージェント
- Authors: Luo Ling, Bai Qianqian,
- Abstract要約: 本稿では,生物学的空間認知理論と認知地図理論に着想を得た,バイオインスパイアされた空間認知ナビゲーションフレームワークBrainNavを提案する。
BrainNavは、デュアルマップ(座標マップとトポロジマップ)とデュアル指向(相対方向と絶対方向)戦略を統合し、動的なシーンキャプチャとパス計画によるリアルタイムナビゲーションを可能にする。
その5つのコアモジュール、ヒッポ海馬記憶ハブ、視覚皮質知覚エンジン、頭頂部空間コンストラクタ、前頭前決定センター、および脳運動実行単位の生体認知機能により、空間幻覚を減少させ、適応性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Enhancing the spatial perception capabilities of mobile robots is crucial for achieving embodied Vision-and-Language Navigation (VLN). Although significant progress has been made in simulated environments, directly transferring these capabilities to real-world scenarios often results in severe hallucination phenomena, causing robots to lose effective spatial awareness. To address this issue, we propose BrainNav, a bio-inspired spatial cognitive navigation framework inspired by biological spatial cognition theories and cognitive map theory. BrainNav integrates dual-map (coordinate map and topological map) and dual-orientation (relative orientation and absolute orientation) strategies, enabling real-time navigation through dynamic scene capture and path planning. Its five core modules-Hippocampal Memory Hub, Visual Cortex Perception Engine, Parietal Spatial Constructor, Prefrontal Decision Center, and Cerebellar Motion Execution Unit-mimic biological cognitive functions to reduce spatial hallucinations and enhance adaptability. Validated in a zero-shot real-world lab environment using the Limo Pro robot, BrainNav, compatible with GPT-4, outperforms existing State-of-the-Art (SOTA) Vision-and-Language Navigation in Continuous Environments (VLN-CE) methods without fine-tuning.
- Abstract(参考訳): 移動ロボットの空間認識能力の向上は,視覚・言語ナビゲーション(VLN)の実現に不可欠である。
シミュレーション環境では大きな進歩があったが、これらの能力を直接現実世界のシナリオに移すと、しばしば激しい幻覚現象が起こり、ロボットは効果的な空間認識を失う。
この問題に対処するために,生物空間認知理論と認知地図理論に着想を得た,バイオインスパイアされた空間認知ナビゲーションフレームワークBrainNavを提案する。
BrainNavは、デュアルマップ(座標マップとトポロジマップ)とデュアル指向(相対方向と絶対方向)戦略を統合し、動的なシーンキャプチャとパス計画によるリアルタイムナビゲーションを可能にする。
その5つのコアモジュール(海馬記憶ハブ、視覚コルテックス知覚エンジン、頭頂部空間コンストラクタ、前頭前決定センター、および脳運動実行単位の生体認知機能)は、空間幻覚を減少させ、適応性を高める。
Limo ProのロボットBrainNavをGPT-4と互換性のあるゼロショットの現実世界のラボ環境で検証し、微調整なしで既存のState-of-the-Art (SOTA) Vision-and-Language Navigation in Continuous Environments (VLN-CE)メソッドより優れている。
関連論文リスト
- CogNav: Cognitive Process Modeling for Object Goal Navigation with LLMs [33.123447047397484]
オブジェクトゴールナビゲーション(Object goal navigation、ObjectNav)は、AIの具体化における基本的なタスクであり、エージェントが以前目に見えない環境でターゲットオブジェクトを見つける必要がある。
大規模言語モデルを用いた認知過程の模倣を目的としたフレームワークであるCogNavを提案する。
CogNavは、少なくとも最先端技術に比べて、ObjectNavの成功率を14%向上させる。
論文 参考訳(メタデータ) (2024-12-11T09:50:35Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。
可逆性のスコアを計算し、セマンティックマップに組み込む。
障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文 参考訳(メタデータ) (2024-08-01T07:27:54Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Bio-inspired spike-based Hippocampus and Posterior Parietal Cortex
models for robot navigation and environment pseudo-mapping [52.77024349608834]
本研究はスパイクに基づくロボットナビゲーションと環境擬似マッピングシステムを提案する。
海馬は環境状態マップの表現を担い、PPCは局所的な意思決定を担当している。
これはバイオインスパイアされた海馬記憶に基づく動的学習を用いた環境擬似マッピングシステムの最初の実装である。
論文 参考訳(メタデータ) (2023-05-22T10:20:34Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。