Fugu-MT 論文翻訳(概要): FSUNav: A Cerebrum-Cerebellum Architecture for Fast, Safe, and Universal Zero-Shot Goal-Oriented Navigation

論文の概要: FSUNav: A Cerebrum-Cerebellum Architecture for Fast, Safe, and Universal Zero-Shot Goal-Oriented Navigation

arxiv url: http://arxiv.org/abs/2604.03139v1
Date: Fri, 03 Apr 2026 16:01:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.525177
Title: FSUNav: A Cerebrum-Cerebellum Architecture for Fast, Safe, and Universal Zero-Shot Goal-Oriented Navigation
Title（参考訳）: FSUNav: 高速で安全でユニバーサルなゼロショットゴール指向ナビゲーションのためのチェレベルアーキテクチャ
Authors: Mingao Tan, Yiyang Li, Shanze Wang, Xinming Zhang, Wei Zhang,
Abstract要約: 本稿では,高速で安全で汎用的なゼロショット目標指向ナビゲーションのためのセルブラム・セレベラムアーキテクチャFSUNavを提案する。提案アーキテクチャは、視覚言語モデル(VLM)と提案アーキテクチャを統合する。 FSUNavは、オブジェクト、インスタンスイメージ、タスクナビゲーションにおける最先端のパフォーマンスを達成し、既存のメソッドを大幅に上回っている。
参考スコア（独自算出の注目度）: 8.950226217725994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current vision-language navigation methods face substantial bottlenecks regarding heterogeneous robot compatibility, real-time performance, and navigation safety. Furthermore, they struggle to support open-vocabulary semantic generalization and multimodal task inputs. To address these challenges, this paper proposes FSUNav: a Cerebrum-Cerebellum architecture for fast, safe, and universal zero-shot goal-oriented navigation, which innovatively integrates vision-language models (VLMs) with the proposed architecture. The cerebellum module, a high-frequency end-to-end module, develops a universal local planner based on deep reinforcement learning, enabling unified navigation across heterogeneous platforms (e.g., humanoid, quadruped, wheeled robots) to improve navigation efficiency while significantly reducing collision risk. The cerebrum module constructs a three-layer reasoning model and leverages VLMs to build an end-to-end detection and verification mechanism, enabling zero-shot open-vocabulary goal navigation without predefined IDs and improving task success rates in both simulation and real-world environments. Additionally, the framework supports multimodal inputs (e.g., text, target descriptions, and images), further enhancing generalization, real-time performance, safety, and robustness. Experimental results on MP3D, HM3D, and OVON benchmarks demonstrate that FSUNav achieves state-of-the-art performance on object, instance image, and task navigation, significantly outperforming existing methods. Real-world deployments on diverse robotic platforms further validate its robustness and practical applicability.
Abstract（参考訳）: 現在の視覚言語ナビゲーション手法は、異種ロボットとの互換性、リアルタイム性能、ナビゲーション安全性に関する重大なボトルネックに直面している。さらに、オープン語彙のセマンティック・ジェネリゼーションとマルチモーダル・タスク・インプットをサポートするのに苦労している。これらの課題に対処するために,提案アーキテクチャと視覚言語モデル(VLM)を革新的に統合した,高速で安全で汎用的なゼロショット目標指向ナビゲーションシステムであるFSUNavを提案する。高周波エンドツーエンドモジュールである小脳モジュールは、深層強化学習に基づくユニバーサルローカルプランナを開発し、異種プラットフォーム(例えば、ヒューマノイド、四足歩行、車輪付きロボット)間の統合ナビゲーションを可能にし、衝突リスクを著しく低減し、ナビゲーション効率を向上させる。セラブラムモジュールは3層推論モデルを構築し、VLMを活用してエンドツーエンドの検出と検証機構を構築し、事前に定義されたIDを使わずにゼロショットのオープン語彙のゴールナビゲーションを可能にし、シミュレーションと実環境の両方でタスク成功率を向上させる。さらに、このフレームワークはマルチモーダル入力(テキスト、ターゲット記述、画像など)をサポートし、一般化、リアルタイムパフォーマンス、安全性、堅牢性をさらに強化する。 MP3D, HM3D, OVONベンチマークによる実験結果から, FSUNavはオブジェクト, インスタンスイメージ, タスクナビゲーション上での最先端性能を実現し, 既存の手法よりも優れていた。多様なロボットプラットフォームへの実世界の展開は、その堅牢性と実用性をさらに検証する。

関連論文リスト

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文参考訳（メタデータ） (2026-03-30T15:06:41Z)
OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。 3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文参考訳（メタデータ） (2026-02-12T16:41:26Z)
APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文参考訳（メタデータ） (2026-01-31T06:27:57Z)
CoINS: Counterfactual Interactive Navigation via Skill-Aware VLM [13.352875026471445]
スキル認識型VLM(CoINS)による対物対話ナビゲーションを提案する。我々は、スキルの余裕と具体的な制約パラメータを入力コンテキストに組み込んだ、InterNav-VLMというVLMを微調整する。生成した高レベルプランを実行するために,強化学習による総合的なスキルライブラリを開発する。
論文参考訳（メタデータ） (2026-01-07T14:10:46Z)
RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation [9.379574254353352]
RANGERは、モノクロカメラのみを使用して動作する、ゼロショットでオープンなセマンティックナビゲーションフレームワークである。新しい環境の短いビデオを単純に観察することで、アーキテクチャの変更や微調整を必要とせずにタスク効率を大幅に改善することができる。 HM3Dベンチマークと実世界の環境実験により、RANGERは航法成功率と探索効率の点で競争性能を発揮することが示された。
論文参考訳（メタデータ） (2025-12-30T13:25:22Z)
FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。 FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。 FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-30T18:16:09Z)
DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-28T04:46:13Z)
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。 ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。 MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-01-30T18:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。