論文の概要: LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- arxiv url: http://arxiv.org/abs/2410.11783v2
- Date: Tue, 21 Jan 2025 21:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:28:44.068162
- Title: LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Title(参考訳): LatentBKI: 定量不確実性を備えたビジュアル言語遅延空間におけるオープンディジショナリな連続マッピング
- Authors: Joey Wilson, Ruihan Xu, Yile Sun, Parker Ewen, Minghan Zhu, Kira Barton, Maani Ghaffari,
- Abstract要約: 本稿では,新しい確率的マッピングアルゴリズムであるlatntBKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
LatentBKIは、人気のMatterport3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価されている。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 6.986230616834552
- License:
- Abstract: This paper introduces a novel probabilistic mapping algorithm, LatentBKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. LatentBKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). LatentBKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular Matterport3D and Semantic KITTI datasets, demonstrating that LatentBKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.
- Abstract(参考訳): 本稿では,新しい確率的マッピングアルゴリズムであるlatntBKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
伝統的に、セマンティックマッピングアルゴリズムは、複雑なロボットタスクに適用性を制限するセマンティックカテゴリの固定セットに焦点を当てている。
VL(Vision-Language)モデルは、最近、言語と視覚的特徴を潜在空間で共同でモデル化する技術として登場し、事前に定義された固定されたセマンティッククラスを超えて意味認識を可能にする。
LatentBKIは、VLモデルからの神経埋め込みを定量的に不確実性のあるボクセルマップに繰り返し組み込み、ベイジアンカーネル推論(BKI)による近くの観測の空間的相関を利用する。
LatentBKIは、人気のあるMatterport3DおよびSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価されており、LatentBKIは、オープン辞書クエリのさらなるメリットとともに、継続的マッピングの確率的メリットを維持していることを証明している。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
関連論文リスト
- Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Uncertainty-aware Semantic Mapping in Off-road Environments with Dempster-Shafer Theory of Evidence [4.83420384410068]
本稿では,DST(Dempster-Shafer Theory of Evidence)の明確な推論をマッピングパイプライン全体に組み込む,明確な意味マッピングフレームワークを提案する。
この枠組みは不確実性マップの信頼性を高め、知覚的不確実性の高いシーンにおいて既存の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-05-10T06:32:01Z) - Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference [5.120567378386614]
本稿では,オフロード環境における信頼性を高めることを目的とした,明白なセマンティックマッピングフレームワークを提案する。
セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。
論文 参考訳(メタデータ) (2024-03-21T05:13:34Z) - Dirichlet Active Learning [1.4277428617774877]
Dirichlet Active Learning(ダイリクレアクティブラーニング、DiAL)は、ベイズに触発されたアクティブラーニングアルゴリズムの設計手法である。
我々のフレームワークはディリクレ確率場として特徴条件クラス確率をモデル化する。
論文 参考訳(メタデータ) (2023-11-09T16:39:02Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。
非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。
GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文 参考訳(メタデータ) (2023-02-13T18:24:21Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Convolutional Bayesian Kernel Inference for 3D Semantic Mapping [1.7615233156139762]
本稿では,ベイズ的推論を明示的に行うことを学ぶ畳み込みベイズ的カーネル推論層を紹介する。
We learn semantic-geometric probability distributions for LiDAR sensor information and incorporated semantic predictions into a global map。
我々は、KITTIデータセット上での最先端セマンティックマッピングアルゴリズムに対するネットワークの評価を行い、同等のセマンティックラベル推論結果によるレイテンシの向上を実証した。
論文 参考訳(メタデータ) (2022-09-21T21:15:12Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。