論文の概要: Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation
- arxiv url: http://arxiv.org/abs/2605.05960v1
- Date: Thu, 07 May 2026 10:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.685422
- Title: Plug-and-Play Label Map Diffusion for Universal Goal-Oriented Navigation
- Title(参考訳): ユニバーサルゴール指向ナビゲーションのためのプラグアンドプレイラベルマップ拡散
- Authors: Zhixuan Shen, Yijie Zeng, Shengxiang Luo, Tianrui Li, Haonan Luo,
- Abstract要約: 目標指向ナビゲーション(Goal-Oriented Navigation, GON)は、ロボットが探索されていない環境で特定の目標を見つけることを要求する。
本稿では,新しい地図完成拡散モデルを定義するPLMD(Plug-and-Play Label Map Diffusion)を提案する。
PLMDは拡散ベースの完了プロセスを通じて未観測領域の障害および意味ラベルを生成する。
- 参考スコア(独自算出の注目度): 10.695090580349245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In embodied vision, Goal-Oriented Navigation (GON) requires robots to locate a specific goal within an unexplored environment. The primary challenge of GON arises from the need to construct a Bird's-Eye-View (BEV) map to understand the environment while simultaneously localizing an unobserved goal. Existing map-based methods typically employ self-centered semantic maps, often facing challenges such as reliance on complete maps or inconsistent semantic association. To this end, we propose Plug-and-Play Label Map Diffusion (PLMD), which defines a novel map completion diffusion model based on Denoising Diffusion Probabilistic Models (DDPM). PLMD generates obstacle and semantic labels for unobserved regions through a diffusion-based completion process, thereby enabling goal localization even in partially observed environments. Moreover, it mitigates inconsistent semantic association by leveraging structural consistency between known and unknown obstacle layouts and integrating obstacle priors into the semantic denoising process. By substituting predicted labels for unobserved regions, robots can accurately localize the specified objects. Extensive experiments demonstrate that PLMD \textbf{(I)} effectively expands the region of unknown maps, \textbf{(II)} integrates seamlessly into existing navigation strategies that rely on semantic maps, \textbf{(III)} achieves state-of-the-art performance on three GON tasks.
- Abstract(参考訳): 具体的視覚では、ゴール指向ナビゲーション(GON)は、探索されていない環境の中で特定の目標を見つけることをロボットに要求する。
GONの主な課題は、観測されていないゴールを同時にローカライズしながら環境を理解するために、Bird's-Eye-View (BEV)マップを構築する必要性から生じる。
既存のマップベースの手法は通常、自己中心のセマンティックマップを使用し、多くの場合、完全なマップへの依存や一貫性のないセマンティックアソシエーションのような課題に直面している。
この目的のために, DDPM(Denoising Diffusion Probabilistic Models)に基づく新しい地図完成拡散モデルを定義するPLMD(Plug-and-Play Label Map Diffusion)を提案する。
PLMDは拡散ベースの完了プロセスを通じて未観測領域の障害やセマンティックラベルを生成し、部分的に観察された環境においてもゴールローカライゼーションを可能にする。
さらに、未知の障害物配置と未知の障害物配置の間の構造的整合性を活用して、セマンティック・デノナイズ・プロセスに障害先行を組み込むことにより、一貫性のないセマンティック・アソシエーションを緩和する。
予測されたラベルを未観測領域に置き換えることで、ロボットは指定されたオブジェクトを正確にローカライズすることができる。
PLMD \textbf{(I)} は未知の写像の領域を効果的に拡張し、 \textbf{(II)} は意味地図に依存する既存のナビゲーション戦略にシームレスに統合され、 \textbf{(III)} は3つのGONタスクで最先端のパフォーマンスを達成する。
関連論文リスト
- OVI-MAP:Open-Vocabulary Instance-Semantic Mapping [108.66131262110095]
OVI-MAPは、RGB-D入力から漸進的に構築される、クラスに依存しない3Dインスタンスマップである。
意味的特徴は、視覚言語モデルを用いて、選択された少数のビューからのみ抽出される。
我々のシステムはリアルタイムに動作し、標準ベンチマークで最先端のオープン語彙マッピングのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-27T15:50:59Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - LIEREx: Language-Image Embeddings for Robotic Exploration [1.8630958726929938]
伝統的な写像アプローチは正確な幾何学的表現を提供するが、しばしば事前に設計された記号語彙によって制約される。
CLIPのようなVision-Language Foundation Modelsの最近の進歩は、オブジェクトを固定ラベルではなく高次元の埋め込みとしてエンコードするオープンセットマッピングを可能にする。
LIERExでは、これらのVLFMを既存の3Dセマンティックシーングラフと統合し、部分的に未知の環境で自律エージェントによるターゲット指向探索を可能にする。
論文 参考訳(メタデータ) (2026-02-02T10:30:50Z) - MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation [15.116320098263149]
MapBERTは、目に見えない空間の分布をモデル化するために設計された新しいフレームワークである。
本研究では,MapBERTが最先端のセマンティックマップ生成を実現することを示す。
Gibsonベンチマークの実験では、MapBERTが最先端のセマンティックマップ生成を実現している。
論文 参考訳(メタデータ) (2025-06-09T01:55:55Z) - Diffusion as Reasoning: Enhancing Object Navigation via Diffusion Model Conditioned on LLM-based Object-Room Knowledge [9.465351278799016]
我々はObjectNavタスクの強化のための新しいアプローチを提案する。
我々は拡散モデルを訓練し、セマンティックマップにおけるオブジェクトの統計分布パターンを学習する。
ナビゲーション中の探索領域の地図を未知領域の地図を生成する条件として利用することにより,対象対象物の長期的目標推論を実現する。
論文 参考訳(メタデータ) (2024-10-29T08:10:06Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。