論文の概要: SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning
- arxiv url: http://arxiv.org/abs/2509.20739v1
- Date: Thu, 25 Sep 2025 04:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.694602
- Title: SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning
- Title(参考訳): 階層的視覚・言語認識と粗大な意味的トポロジ計画を用いたSLAMフリービジュアルナビゲーション
- Authors: Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma,
- Abstract要約: 脚付きロボットナビゲーションのための視覚のみのSLAMフリーナビゲーションフレームワークを提案する。
階層的な視覚言語知覚モジュールは、シーンレベルのコンテキストとオブジェクトレベルの手がかりを融合して、堅牢なセマンティック推論を行う。
強化学習コントローラと統合されたこのフレームワークは、さまざまな脚を持つロボットプラットフォームにデプロイ可能である。
- 参考スコア(独自算出の注目度): 20.12642476619467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional SLAM pipelines for legged robot navigation are fragile under rapid motion, calibration demands, and sensor drift, while offering limited semantic reasoning for task-driven exploration. To deal with these issues, we propose a vision-only, SLAM-free navigation framework that replaces dense geometry with semantic reasoning and lightweight topological representations. A hierarchical vision-language perception module fuses scene-level context with object-level cues for robust semantic inference. And a semantic-probabilistic topological map supports coarse-to-fine planning: LLM-based global reasoning for subgoal selection and vision-based local planning for obstacle avoidance. Integrated with reinforcement-learning locomotion controllers, the framework is deployable across diverse legged robot platforms. Experiments in simulation and real-world settings demonstrate consistent improvements in semantic accuracy, planning quality, and navigation success, while ablation studies further showcase the necessity of both hierarchical perception and fine local planning. This work introduces a new paradigm for SLAM-free, vision-language-driven navigation, shifting robotic exploration from geometry-centric mapping to semantics-driven decision making.
- Abstract(参考訳): 脚付きロボットナビゲーションのための従来のSLAMパイプラインは、迅速な動き、キャリブレーション要求、センサードリフトの下で脆弱であり、タスク駆動探索のための限定的なセマンティック推論を提供する。
これらの問題に対処するために、高密度な幾何学を意味論的推論と軽量な位相表現に置き換える、視覚のみのSLAMフリーナビゲーションフレームワークを提案する。
階層的な視覚言語知覚モジュールは、シーンレベルのコンテキストとオブジェクトレベルの手がかりを融合して、堅牢なセマンティック推論を行う。
また、意味確率的トポロジカルマップは、粗大な計画(LLMに基づくサブゴール選択のグローバル推論と障害物回避のための視覚に基づくローカルプランニング)をサポートする。
強化学習型ロコモーションコントローラと統合されたこのフレームワークは、さまざまな脚を持つロボットプラットフォームにデプロイ可能である。
シミュレーションと実世界の環境での実験では、セマンティックな精度、計画品質、ナビゲーションの成功が一貫した改善を示した。
この研究は、SLAMのない視覚言語駆動ナビゲーションのための新しいパラダイムを導入し、ロボットによる探索を幾何学中心のマッピングから意味論駆動の意思決定へとシフトさせた。
関連論文リスト
- A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Semantic Exploration and Dense Mapping of Complex Environments using Ground Robot with Panoramic LiDAR-Camera Fusion [10.438142938687326]
本稿では,LiDAR-パノラマカメラスイートを備えた地上ロボットを用いて,複雑な未知環境の自律的セマンティック探索と密集的セマンティックターゲットマッピングを行うシステムを提案する。
そこで我々はまず,幾何的カバレッジと意味的視点の両方の観察を完遂するタスクを再定義し,その後,意味的視点と幾何学的視点を別々に管理し,局所的な視点を生成するための新たな優先順位駆動型デカップリング型局所サンプリングを提案する。
さらに,ロボットの安全性を確保しつつ,積極的な探索行動を可能にする安全な攻撃的探索状態マシンを提案する。
論文 参考訳(メタデータ) (2025-05-28T21:27:32Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。