論文の概要: SEMNAV: A Semantic Segmentation-Driven Approach to Visual Semantic Navigation
- arxiv url: http://arxiv.org/abs/2506.01418v1
- Date: Mon, 02 Jun 2025 08:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.101171
- Title: SEMNAV: A Semantic Segmentation-Driven Approach to Visual Semantic Navigation
- Title(参考訳): SEMNAV: セマンティックセマンティックナビゲーションへのセマンティックセグメンテーション駆動アプローチ
- Authors: Rafael Flor-Rodríguez, Carlos Gutiérrez-Álvarez, Francisco Javier Acevedo-Rodríguez, Sergio Lafuente-Arroyo, Roberto J. López-Sastre,
- Abstract要約: ビジュアルセマンティックナビゲーション(VSN)はロボット工学における基本的な問題であり、エージェントは未知の環境で対象物に向かって移動しなければならない。
ほとんどの最先端のVSNモデルは、実世界のレンダリングシーンが使用されるシミュレーション環境で訓練されている。
本研究では,環境の視覚的入力表現としてセマンティックセグメンテーションを活用する新しい手法であるSEMNAVを提案する。
- 参考スコア(独自算出の注目度): 1.2582887633807602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Semantic Navigation (VSN) is a fundamental problem in robotics, where an agent must navigate toward a target object in an unknown environment, mainly using visual information. Most state-of-the-art VSN models are trained in simulation environments, where rendered scenes of the real world are used, at best. These approaches typically rely on raw RGB data from the virtual scenes, which limits their ability to generalize to real-world environments due to domain adaptation issues. To tackle this problem, in this work, we propose SEMNAV, a novel approach that leverages semantic segmentation as the main visual input representation of the environment to enhance the agent's perception and decision-making capabilities. By explicitly incorporating high-level semantic information, our model learns robust navigation policies that improve generalization across unseen environments, both in simulated and real world settings. We also introduce a newly curated dataset, i.e. the SEMNAV dataset, designed for training semantic segmentation-aware navigation models like SEMNAV. Our approach is evaluated extensively in both simulated environments and with real-world robotic platforms. Experimental results demonstrate that SEMNAV outperforms existing state-of-the-art VSN models, achieving higher success rates in the Habitat 2.0 simulation environment, using the HM3D dataset. Furthermore, our real-world experiments highlight the effectiveness of semantic segmentation in mitigating the sim-to-real gap, making our model a promising solution for practical VSN-based robotic applications. We release SEMNAV dataset, code and trained models at https://github.com/gramuah/semnav
- Abstract(参考訳): ビジュアルセマンティックナビゲーション(VSN)は、ロボット工学における基本的な問題であり、エージェントは、主に視覚情報を用いて、未知の環境で対象物に向かって移動しなければならない。
ほとんどの最先端のVSNモデルは、実世界のレンダリングシーンが使用されるシミュレーション環境で訓練されている。
これらのアプローチは、通常、仮想シーンからの生のRGBデータに依存しており、ドメイン適応の問題により、現実の環境に一般化する能力を制限する。
本研究では,環境の視覚的インプット表現としてセマンティックセグメンテーションを活用し,エージェントの知覚と意思決定能力を高める手法であるSEMNAVを提案する。
高レベルのセマンティック情報を明示的に組み込むことで、シミュレーションと実環境の両方において、目に見えない環境における一般化を改善する堅牢なナビゲーションポリシーを学習する。
また、SEMNAVのようなセマンティックセグメンテーションを意識したナビゲーションモデルをトレーニングするために設計された、SEMNAVデータセットを新たにキュレートしたデータセットも導入する。
本手法はシミュレーション環境と実世界のロボットプラットフォームの両方で広く評価されている。
実験の結果,SEMNAVは既存のVSNモデルより優れており,HM3Dデータセットを用いてHabitat 2.0シミュレーション環境で高い成功率を達成した。
さらに、実世界の実験では、シム・トゥ・リアルギャップを緩和する意味的セグメンテーションの有効性を強調し、本モデルが実用的なVSNベースのロボットアプリケーションにとって有望なソリューションとなる。
SEMNAVデータセット、コード、トレーニングされたモデルをhttps://github.com/gramuah/semnavでリリースします。
関連論文リスト
- Learning from the Giants: A Practical Approach to Underwater Depth and Surface Normals Estimation [3.0516727053033392]
本稿では,単眼深度と表面正規化推定(MDSNE)のための新しいディープラーニングモデルを提案する。
これは特に、CNNとTransformerを統合するハイブリッドアーキテクチャを使用して、水中環境向けに調整されている。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
論文 参考訳(メタデータ) (2024-10-02T22:41:12Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文 参考訳(メタデータ) (2022-02-02T15:00:44Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。