論文の概要: ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
- arxiv url: http://arxiv.org/abs/2602.11598v1
- Date: Thu, 12 Feb 2026 05:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.655506
- Title: ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
- Title(参考訳): ABot-N0:Versatile Embodied NavigationのためのVLAファンデーションモデルに関する技術報告
- Authors: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu,
- Abstract要約: ABot-N0は5つのコアタスクにまたがる「グランド・ユニフィケーション」を実現する統合ビジョン・ランゲージ・アクション(VLA)基盤モデルである。
ABot-N0は階層的なBrain-Action'アーキテクチャを使用し、LLMベースのCognitive Brainをセマンティック推論に組み合わせ、フローマッチングベースのAction Expertと組み合わせて正確で連続的な軌道生成を行う。
- 参考スコア(独自算出の注目度): 50.35621223011076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 $\text{km}^2$). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.
- Abstract(参考訳): 身体的なナビゲーションは、長い間タスク固有のアーキテクチャによって断片化されてきた。
我々は、ポイントゴール、オブジェクトゴール、インストラクション-フォロー、POIゴール、パーソナ-フォローという5つのコアタスクにまたがる '`Grand Unification'' を実現する統合ビジョン・ランゲージ・アクション(VLA)基盤モデルであるABot-N0を紹介する。
ABot-N0は階層的な ``Brain-Action'' アーキテクチャを使用し、LLMベースの認知脳をセマンティック推論に、フローマッチングベースのアクションエキスパートと組み合わせて、正確で連続的な軌道生成を行う。
大規模学習を支援するため,ABot-N0 Data Engineを開発した。ABot-N0は16.9Mのエキスパートトラジェクトリと5.0Mの推論サンプルを7,802の高忠実度3Dシーン(10.7$\text{km}^2$)でキュレートする。
ABot-N0は7つのベンチマークにまたがって新たなSOTAパフォーマンスを実現し、特別なモデルよりも大幅に優れています。
さらに,エージェントナビゲーションシステムは階層的なトポロジカルメモリをプランナーに統合し,動的現実世界環境における堅牢で長期のミッションを可能にする。
関連論文リスト
- D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation [8.788856156414026]
大規模なシーンは、因子グラフ内のロボットのポーズと合わせて推定されるランドマークの3Dグラフで、堅牢かつ効率的にマッピングすることができる。
そこで本研究では,自然言語命令のゼロショット手法であるLanguage-Inferred Factor Graph for Instruction following (LIFGIF)を提案する。
ボストン・ダイナミクス・スポット・ロボットを用いた実世界におけるゼロショット物体中心指導におけるLIFGIFの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-12T15:01:40Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。