論文の概要: From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
- arxiv url: http://arxiv.org/abs/2508.17198v1
- Date: Sun, 24 Aug 2025 03:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.397274
- Title: From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
- Title(参考訳): 反応から認知へ:脳に触発されたエンボディエージェントのための空間知能
- Authors: Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su,
- Abstract要約: Brain-inspired Space Cognition for Navigation (BSC-Nav) は、エンボディエージェントにおける構造化空間メモリの構築と活用のための統合されたフレームワークである。
BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知マップを構築し、意味的目標に沿った空間的知識を動的に回収する。
- 参考スコア(独自算出の注目度): 50.99942960312313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial cognition enables adaptive goal-directed behavior by constructing internal models of space. Robust biological systems consolidate spatial knowledge into three interconnected forms: \textit{landmarks} for salient cues, \textit{route knowledge} for movement trajectories, and \textit{survey knowledge} for map-like representations. While recent advances in multi-modal large language models (MLLMs) have enabled visual-language reasoning in embodied agents, these efforts lack structured spatial memory and instead operate reactively, limiting their generalization and adaptability in complex real-world environments. Here we present Brain-inspired Spatial Cognition for Navigation (BSC-Nav), a unified framework for constructing and leveraging structured spatial memory in embodied agents. BSC-Nav builds allocentric cognitive maps from egocentric trajectories and contextual cues, and dynamically retrieves spatial knowledge aligned with semantic goals. Integrated with powerful MLLMs, BSC-Nav achieves state-of-the-art efficacy and efficiency across diverse navigation tasks, demonstrates strong zero-shot generalization, and supports versatile embodied behaviors in the real physical world, offering a scalable and biologically grounded path toward general-purpose spatial intelligence.
- Abstract(参考訳): 空間認知は空間の内部モデルを構築することで適応的な目標指向の行動を可能にする。
ロバストな生物学的システムは空間的知識を3つの相互接続された形式に集約する: 有能な手がかりのための \textit{landmarks} 、運動軌跡のための \textit{route knowledge} 、地図のような表現のための \textit{survey knowledge} である。
近年のMLLM(Multi-modal large language model)の進歩により、エンボディエージェントの視覚言語推論が可能になったが、これらの取り組みには空間記憶が構造化されていないため、複雑な現実世界環境での一般化と適応性を制限している。
本稿では,脳に触発されたナビゲーションのための空間認知(BSC-Nav)について述べる。
BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知マップを構築し、意味的目標に沿った空間的知識を動的に回収する。
強力なMLLMと統合されたBSC-Navは、多様なナビゲーションタスクにまたがる最先端の有効性と効率を実現し、強力なゼロショットの一般化を実証し、実世界における多目的な実施行動をサポートし、汎用空間知性へのスケーラブルで生物学的に根ざした道を提供する。
関連論文リスト
- Can LLMs Learn to Map the World from Local Descriptions? [50.490593949836146]
本研究では,Large Language Models (LLMs) がコヒーレントなグローバル空間認識を構築できるかどうかを検討する。
都市環境を模擬した実験により, LLMは実空間分布に一致した潜在表現を示すことを示した。
論文 参考訳(メタデータ) (2025-05-27T08:22:58Z) - Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation [0.0]
本稿では,生物学的空間認知理論と認知地図理論に着想を得た,バイオインスパイアされた空間認知ナビゲーションフレームワークBrainNavを提案する。
BrainNavは、デュアルマップ(座標マップとトポロジマップ)とデュアル指向(相対方向と絶対方向)戦略を統合し、動的なシーンキャプチャとパス計画によるリアルタイムナビゲーションを可能にする。
その5つのコアモジュール、ヒッポ海馬記憶ハブ、視覚皮質知覚エンジン、頭頂部空間コンストラクタ、前頭前決定センター、および脳運動実行単位の生体認知機能により、空間幻覚を減少させ、適応性を高める。
論文 参考訳(メタデータ) (2025-04-09T02:19:22Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。