論文の概要: USS-Nav: Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation
- arxiv url: http://arxiv.org/abs/2602.00708v2
- Date: Tue, 03 Feb 2026 05:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.045625
- Title: USS-Nav: Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation
- Title(参考訳): USS-Nav:軽量UAVゼロショット・オブジェクトナビゲーションのための統一スパンディ・セマンティック・シーングラフ
- Authors: Weiqi Gai, Yuman Gao, Yuan Zhou, Yufan Xie, Zhiyang Liu, Yuze Wu, Xin Zhou, Fei Gao, Zhijun Meng,
- Abstract要約: USS-Navは、Unified Spatio-Semanticのシーングラフをインクリメンタルに構築する軽量フレームワークである。
未知環境での効率的なLarge Language Model (LLM)拡張Zero-Shot Object Navigationを可能にする。
我々のフレームワークは、計算効率とリアルタイム更新頻度の点で最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 10.934912400963588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Object Navigation in unknown environments poses significant challenges for Unmanned Aerial Vehicles (UAVs) due to the conflict between high-level semantic reasoning requirements and limited onboard computational resources. To address this, we present USS-Nav, a lightweight framework that incrementally constructs a Unified Spatio-Semantic scene graph and enables efficient Large Language Model (LLM)-augmented Zero-Shot Object Navigation in unknown environments. Specifically, we introduce an incremental Spatial Connectivity Graph generation method utilizing polyhedral expansion to capture global geometric topology, which is dynamically partitioned into semantic regions via graph clustering. Concurrently, open-vocabulary object semantics are instantiated and anchored to this topology to form a hierarchical environmental representation. Leveraging this hierarchical structure, we present a coarse-to-fine exploration strategy: LLM grounded in the scene graph's semantics to determine global target regions, while a local planner optimizes frontier coverage based on information gain. Experimental results demonstrate that our framework outperforms state-of-the-art methods in terms of computational efficiency and real-time update frequency (15 Hz) on a resource-constrained platform. Furthermore, ablation studies confirm the effectiveness of our framework, showing substantial improvements in Success weighted by Path Length (SPL). The source code will be made publicly available to foster further research.
- Abstract(参考訳): 未知の環境でのゼロショットオブジェクトナビゲーションは、高レベルのセマンティック推論要求と限られた計算資源との衝突により、無人航空機(UAV)に重大な課題をもたらす。
これを解決するために,統一時空間シーングラフを漸進的に構築し,未知環境下での効率的なLarge Language Model(LLM)拡張ゼロショットオブジェクトナビゲーションを実現する軽量フレームワークであるUSS-Navを提案する。
具体的には、多面体展開を利用したインクリメンタルな空間接続グラフ生成手法を導入し、グローバルな幾何学的トポロジーを捉え、グラフクラスタリングにより動的に意味領域に分割する。
同時に、オープン語彙オブジェクトのセマンティクスがインスタンス化され、このトポロジに固定され、階層的な環境表現を形成する。
LLMはシーングラフのセマンティクスに基づいてグローバルなターゲット領域を決定するが、ローカルプランナは情報ゲインに基づいてフロンティアカバレッジを最適化する。
実験により,本フレームワークは資源制約されたプラットフォーム上での計算効率およびリアルタイム更新周波数(15Hz)において,最先端の手法よりも優れた性能を示した。
さらに, アブレーション研究により本フレームワークの有効性が確認され, パス長(SPL)による成功率の大幅な改善が示された。
ソースコードは、さらなる研究を促進するために公開されます。
関連論文リスト
- SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation [61.34589819350429]
視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
本フレームワークは,指示を明示的な空間的制約に分解することで,グラフ制約最適化としてナビゲーションガイダンスを定式化する。
我々のフレームワークは、新しい環境や命令セットに効果的に一般化することができ、より堅牢で自律的なナビゲーションフレームワークへの道を開くことができる。
論文 参考訳(メタデータ) (2025-09-12T17:59:58Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Lightweight Object-level Topological Semantic Mapping and Long-term
Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。
我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。
提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文 参考訳(メタデータ) (2022-01-16T05:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。