論文の概要: Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- arxiv url: http://arxiv.org/abs/2410.11783v1
- Date: Tue, 15 Oct 2024 17:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:05.665662
- Title: Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Title(参考訳): Latent BKI: 定量不確実性を備えたビジュアル言語遅延空間におけるオープンディジショナリな連続マッピング
- Authors: Joey Wilson, Ruihan Xu, Yile Sun, Parker Ewen, Minghan Zhu, Kira Barton, Maani Ghaffari,
- Abstract要約: 本稿では,新しい確率的マッピングアルゴリズムであるLatent BKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
ラテントBKIは、人気のMatterPort-3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価される。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 6.986230616834552
- License:
- Abstract: This paper introduces a novel probabilistic mapping algorithm, Latent BKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. Latent BKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). Latent BKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular MatterPort-3D and Semantic KITTI data sets, demonstrating that Latent BKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.
- Abstract(参考訳): 本稿では,新しい確率的マッピングアルゴリズムであるLatent BKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
伝統的に、セマンティックマッピングアルゴリズムは、複雑なロボットタスクに適用性を制限するセマンティックカテゴリの固定セットに焦点を当てている。
VL(Vision-Language)モデルは、最近、言語と視覚的特徴を潜在空間で共同でモデル化する技術として登場し、事前に定義された固定されたセマンティッククラスを超えて意味認識を可能にする。
潜在的BKIは、VLモデルからの神経埋め込みを定量的に不確実性のあるボクセルマップに繰り返し組み込み、ベイジアンカーネル推論(BKI)による近くの観測の空間的相関を利用する。
ラテントBKIは、人気のMatterPort-3DおよびセマンティックKITTIデータセット上の同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価され、ラテントBKIがオープン辞書クエリのさらなる利点とともに連続マッピングの確率的利点を維持していることを示す。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference [5.120567378386614]
本稿では,オフロード環境における信頼性を高めることを目的とした,明白なセマンティックマッピングフレームワークを提案する。
セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。
論文 参考訳(メタデータ) (2024-03-21T05:13:34Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。
非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。
GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文 参考訳(メタデータ) (2023-02-13T18:24:21Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Convolutional Bayesian Kernel Inference for 3D Semantic Mapping [1.7615233156139762]
本稿では,ベイズ的推論を明示的に行うことを学ぶ畳み込みベイズ的カーネル推論層を紹介する。
We learn semantic-geometric probability distributions for LiDAR sensor information and incorporated semantic predictions into a global map。
我々は、KITTIデータセット上での最先端セマンティックマッピングアルゴリズムに対するネットワークの評価を行い、同等のセマンティックラベル推論結果によるレイテンシの向上を実証した。
論文 参考訳(メタデータ) (2022-09-21T21:15:12Z) - PROB-SLAM: Real-time Visual SLAM Based on Probabilistic Graph
Optimization [0.0]
従来のSLAMアルゴリズムは通常、高いレベルの情報を持たない人工的な特徴に基づいている。
意味情報を導入することで、SLAMは純粋に手作りの機能よりも高い安定性と堅牢性を持つことができる。
本稿ではガウス分布仮定に基づく新しい確率写像を提案する。
動的オブジェクトを含む環境に適用できることを実証した。
論文 参考訳(メタデータ) (2022-09-15T05:47:17Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。