論文の概要: Sem-NaVAE: Semantically-Guided Outdoor Mapless Navigation via Generative Trajectory Priors
- arxiv url: http://arxiv.org/abs/2602.01429v1
- Date: Sun, 01 Feb 2026 20:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.070279
- Title: Sem-NaVAE: Semantically-Guided Outdoor Mapless Navigation via Generative Trajectory Priors
- Title(参考訳): Sem-NaVAE: 生成軌道先導によるセマンティックガイド付き屋外マップレスナビゲーション
- Authors: Gonzalo Olguin, Javier Ruiz-del-Solar,
- Abstract要約: 本研究は,屋外アプリケーションに対するマップレスグローバルナビゲーション手法を提案する。
条件付き変分オートエンコーダ(CVAE)の探索能力と、軽量視覚言語モデル(VLM)のセマンティックセグメンテーション能力を組み合わせて、実行すべき軌道を選択する。
この手法は実世界の屋外ナビゲーション実験を通じて検証され、最先端の手法よりも優れた性能を実現した。
- 参考スコア(独自算出の注目度): 3.494950334697973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a mapless global navigation approach for outdoor applications. It combines the exploratory capacity of conditional variational autoencoders (CVAEs) to generate trajectories and the semantic segmentation capabilities of a lightweight visual language model (VLM) to select the trajectory to execute. Open-vocabulary segmentation is used to score and select the generated trajectories based on natural language, and a state-of-the-art local planner executes velocity commands. One of the key features of the proposed approach is its ability to generate a large variability of trajectories and to select them and navigate in real-time. The approach was validated through real-world outdoor navigation experiments, achieving superior performance compared to state-of-the-art methods. A video showing an experimental run of the system can be found in https://www.youtube.com/watch?v=i3R5ey5O2yk.
- Abstract(参考訳): 本研究は,屋外アプリケーションに対するマップレスグローバルナビゲーション手法を提案する。
条件付き変分オートエンコーダ(CVAE)の探索能力と、軽量視覚言語モデル(VLM)のセマンティックセグメンテーション能力を組み合わせて、実行すべき軌道を選択する。
Open-vocabulary segmentationは、自然言語に基づいて生成されたトラジェクトリをスコアし、選択するために使用され、最先端のローカルプランナーがベロシティコマンドを実行する。
提案手法の重要な特徴の1つは、トラジェクトリの大きな変数を生成し、それらを選択し、リアルタイムでナビゲートする能力である。
この手法は実世界の屋外ナビゲーション実験を通じて検証され、最先端の手法よりも優れた性能を実現した。
実験的なシステムの動作を示すビデオはhttps://www.youtube.com/watch?
v=i3R5ey5O2yk。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - NavDreamer: Video Models as Zero-Shot 3D Navigators [10.105345998118915]
本稿では,生成的映像モデルを言語命令と軌跡間の普遍的なインターフェースとして活用する3次元ナビゲーションのための映像ベースのフレームワークを提案する。
我々の主要な仮説は、映像が情報と物理力学をエンコードし、インターネットスケールの可用性と組み合わせることで、ナビゲーションにおけるゼロショットの強力な一般化を可能にする、というものである。
論文 参考訳(メタデータ) (2026-02-10T13:24:12Z) - FeudalNav: A Simple Framework for Visual Navigation [7.136542835931238]
ナビゲーション決定過程を複数のレベルに分解する階層的なフレームワークを開発する。
提案手法は,簡単な経路選択ネットワークを通じてサブゴールを選択することを学習する。
トレーニングや推論にオドメトリを使わずに,Habitat AI環境におけるSOTA手法のスイートによる競合結果を示す。
論文 参考訳(メタデータ) (2026-01-15T22:10:29Z) - PIGEON: VLM-Driven Object Navigation via Points of Interest Selection [50.77437819030925]
視覚言語モデル(VLM)を用いたオブジェクトナビゲーションのための興味あるガイド探索点PIGEONを提案する。
我々は、PIGEON-VLと呼ばれる大規模な視覚言語モデル(VLM)を用いて、探索中に形成された関心のポイント(PoI)を選択し、次に低レベルのプランナーを用いて行動出力を行い、決定頻度を増大させる。
従来のオブジェクトナビゲーションベンチマークの実験では、我々のゼロショット転送方式は最先端のパフォーマンスを達成する一方、RLVRはモデルのセマンティックガイダンス機能をさらに強化し、リアルタイムナビゲーションにおける深い推論を可能にしている。
論文 参考訳(メタデータ) (2025-11-17T10:19:13Z) - Grid2Guide: A* Enabled Small Language Model for Indoor Navigation [6.341317643879287]
本研究では,A*探索アルゴリズムとSmall Language Model(SLM)を組み合わせるハイブリッドナビゲーションフレームワークを提案する。
提案手法を,リアルタイム屋内ナビゲーション支援のための軽量かつインフラストラクチャフリーなソリューションとして検証した。
論文 参考訳(メタデータ) (2025-08-11T15:39:27Z) - Real-time Spatial-temporal Traversability Assessment via Feature-based Sparse Gaussian Process [15.756895046886406]
本研究では,自律型ロボットが複雑な地形を移動できるようにすることを目的とした,空間的時間的トラバーサビリティ評価手法を提案する。
我々の手法は精度と計算効率の両面でSOTAよりも優れている。
本研究では,移動可能性マップと統合された自律ナビゲーションフレームワークを開発し,複雑な屋外環境下での微分駆動車による検証を行う。
論文 参考訳(メタデータ) (2025-03-06T06:26:57Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Topological Planning with Transformers for Vision-and-Language
Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。
自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。
実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文 参考訳(メタデータ) (2020-12-09T20:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。