論文の概要: MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation
- arxiv url: http://arxiv.org/abs/2506.07350v1
- Date: Mon, 09 Jun 2025 01:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.774477
- Title: MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation
- Title(参考訳): MapBERT:リアルタイム意味マッピング生成のためのビットワイズマスクモデリング
- Authors: Yijie Deng, Shuaihang Yuan, Congcong Wen, Hao Huang, Anthony Tzes, Geeta Chandra Raju Bethala, Yi Fang,
- Abstract要約: MapBERTは、目に見えない空間の分布をモデル化するために設計された新しいフレームワークである。
本研究では,MapBERTが最先端のセマンティックマップ生成を実現することを示す。
Gibsonベンチマークの実験では、MapBERTが最先端のセマンティックマップ生成を実現している。
- 参考スコア(独自算出の注目度): 15.116320098263149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial awareness is a critical capability for embodied agents, as it enables them to anticipate and reason about unobserved regions. The primary challenge arises from learning the distribution of indoor semantics, complicated by sparse, imbalanced object categories and diverse spatial scales. Existing methods struggle to robustly generate unobserved areas in real time and do not generalize well to new environments. To this end, we propose \textbf{MapBERT}, a novel framework designed to effectively model the distribution of unseen spaces. Motivated by the observation that the one-hot encoding of semantic maps aligns naturally with the binary structure of bit encoding, we, for the first time, leverage a lookup-free BitVAE to encode semantic maps into compact bitwise tokens. Building on this, a masked transformer is employed to infer missing regions and generate complete semantic maps from limited observations. To enhance object-centric reasoning, we propose an object-aware masking strategy that masks entire object categories concurrently and pairs them with learnable embeddings, capturing implicit relationships between object embeddings and spatial tokens. By learning these relationships, the model more effectively captures indoor semantic distributions crucial for practical robotic tasks. Experiments on Gibson benchmarks show that MapBERT achieves state-of-the-art semantic map generation, balancing computational efficiency with accurate reconstruction of unobserved regions.
- Abstract(参考訳): 空間認識は、観測されていない領域を予測し、推論することができるため、エンボディードエージェントにとって重要な能力である。
主な課題は、スパース、不均衡な対象カテゴリー、多様な空間スケールによって複雑な屋内意味論の分布を学ぶことにある。
既存の手法では、観測されていない領域をリアルタイムで強固に生成するのに苦労し、新しい環境に対してうまく一般化しない。
この目的のために,未知空間の分布を効果的にモデル化する新しいフレームワークである \textbf{MapBERT} を提案する。
セマンティックマップのワンホット符号化がビット符号化のバイナリ構造と自然に一致しているという観察によって、我々は初めて、ルックアップフリーのBitVAEを利用してセマンティックマップをコンパクトなビットワイズトークンにエンコードする。
これに基づいて、マスク付きトランスフォーマーを使用して、欠落した領域を推測し、限られた観測から完全な意味マップを生成する。
オブジェクト中心の推論を強化するため、オブジェクトカテゴリ全体を同時にマスキングし、学習可能な埋め込みと組み合わせ、オブジェクト埋め込みと空間トークン間の暗黙の関係をキャプチャするオブジェクト認識マスキング戦略を提案する。
これらの関係を学習することにより、本モデルは実用的なロボット作業に不可欠な屋内意味分布をより効果的に捉えることができる。
Gibsonベンチマークの実験によると、MapBERTは最先端のセマンティックマップ生成を実現し、計算効率と観測されていない領域の正確な再構築のバランスをとる。
関連論文リスト
- Map Space Belief Prediction for Manipulation-Enhanced Mapping [35.04168032835369]
本研究では,操作強化セマンティックマッピングの問題に対処する。
ロボットは、散らかった棚の中のすべての物体を効率的に識別する必要がある。
提案する新しいPOMDPプランナは,既存の手法よりも地図の完全性と精度を向上する。
論文 参考訳(メタデータ) (2025-02-28T00:10:52Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Lightweight Object-level Topological Semantic Mapping and Long-term
Global Localization based on Graph Matching [19.706907816202946]
本稿では,高精度でロバストなオブジェクトレベルのマッピングとローカライズ手法を提案する。
我々は、環境のランドマークをモデル化するために、意味情報と幾何学情報の両方を持つオブジェクトレベルの特徴を使用する。
提案したマップに基づいて,新たな局所的シーングラフ記述子を構築することにより,ロバストなローカライゼーションを実現する。
論文 参考訳(メタデータ) (2022-01-16T05:47:07Z) - Cross-Image Region Mining with Region Prototypical Network for Weakly
Supervised Segmentation [45.39679291105364]
トレーニングセットのクロスイメージオブジェクトの多様性を探索する領域ネットワークRPNetを提案する。
画像にまたがる類似の物体は、地域特徴比較によって識別される。
実験の結果,提案手法はより完全で正確な擬似物体マスクを生成することがわかった。
論文 参考訳(メタデータ) (2021-08-17T02:51:02Z) - Exploiting latent representation of sparse semantic layers for improved
short-term motion prediction with Capsule Networks [0.12183405753834559]
本稿では,HD(High-Definition)マップの小さな領域に対応するスパースなセマンティクス層の階層的表現を学習する文脈において,Capsule Networks(CapsNets)の利用を検討する。
CapsNetsに基づくアーキテクチャを使用することで、検出された画像内の特徴間の階層的関係を維持すると同時に、プール操作によってしばしば発生する空間データの損失を防ぐことができる。
本モデルでは,ネットワーク全体の規模を大幅に削減しつつ,予測に関する最近の研究よりも大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T11:13:43Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。