Fugu-MT 論文翻訳(概要): Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

論文の概要: Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

arxiv url: http://arxiv.org/abs/2410.11783v1
Date: Tue, 15 Oct 2024 17:02:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.904768
Title: Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
Title（参考訳）: Latent BKI: 定量不確実性を備えたビジュアル言語遅延空間におけるオープンディジショナリな連続マッピング
Authors: Joey Wilson, Ruihan Xu, Yile Sun, Parker Ewen, Minghan Zhu, Kira Barton, Maani Ghaffari,
Abstract要約: 本稿では,新しい確率的マッピングアルゴリズムであるLatent BKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。ラテントBKIは、人気のMatterPort-3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価される。実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
参考スコア（独自算出の注目度）: 6.986230616834552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a novel probabilistic mapping algorithm, Latent BKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. Latent BKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). Latent BKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular MatterPort-3D and Semantic KITTI data sets, demonstrating that Latent BKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.
Abstract（参考訳）: 本稿では,新しい確率的マッピングアルゴリズムであるLatent BKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。伝統的に、セマンティックマッピングアルゴリズムは、複雑なロボットタスクに適用性を制限するセマンティックカテゴリの固定セットに焦点を当てている。 VL(Vision-Language)モデルは、最近、言語と視覚的特徴を潜在空間で共同でモデル化する技術として登場し、事前に定義された固定されたセマンティッククラスを超えて意味認識を可能にする。潜在的BKIは、VLモデルからの神経埋め込みを定量的に不確実性のあるボクセルマップに繰り返し組み込み、ベイジアンカーネル推論(BKI)による近くの観測の空間的相関を利用する。ラテントBKIは、人気のMatterPort-3DおよびセマンティックKITTIデータセット上の同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価され、ラテントBKIがオープン辞書クエリのさらなる利点とともに連続マッピングの確率的利点を維持していることを示す。実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。

関連論文リスト

Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes [60.75226150503949]
本稿では,解答埋め込みの幾何学的構造を解析し,意味的不確実性を定量化するベイズ的枠組みを提案する。 S GPUは、生成した回答を密接なセマンティック空間にマッピングし、セマンティック埋め込みのグラム行列を計算し、セマンティック構成を要約する。我々は,SGPUがモデルとモダリティをまたいで転送されることを示し,そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
論文参考訳（メタデータ） (2025-12-16T08:15:24Z)
Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation [48.806000388608005]
提案するX-Agentは,「潜時意味認識エージェント」を用いてモーダル間注意機構を編成する,革新的なOVSSフレームワークである。 X-Agentは最先端のパフォーマンスを実現し、潜伏したセマンティックサリエンシを効果的に強化する。
論文参考訳（メタデータ） (2025-09-01T09:01:58Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
FeatInv: Spatially resolved mapping from feature space to input space using conditional diffusion models [0.9503773054285559]
ディープニューラルネットワークを理解するためには、内部表現が不可欠である。特徴空間から入力空間へのマッピングは前者の解釈に役立つが、既存のアプローチはしばしば粗い近似に依存する。本研究では,条件付き拡散モデルを用いて確率論的手法でそのような写像を学習する。
論文参考訳（メタデータ） (2025-05-27T11:07:34Z)
PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models [2.2760325783059074]
本稿では,言語仕様による視覚的注意を導くための確率的フレームワークであるPARICを紹介する。提案手法は,事前学習した視覚言語モデルを用いて確率論的参照アテンションマップを生成する。ベンチマークテスト問題に関する実験では、PARICが予測精度を高め、バイアスを軽減し、一貫した予測を保証し、さまざまなデータセットにわたって改善していることが示されている。
論文参考訳（メタデータ） (2025-03-14T12:53:37Z)
Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference [5.120567378386614]
本稿では,オフロード環境における信頼性を高めることを目的とした,明白なセマンティックマッピングフレームワークを提案する。セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。
論文参考訳（メタデータ） (2024-03-21T05:13:34Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Dirichlet Active Learning [1.4277428617774877]
Dirichlet Active Learning(ダイリクレアクティブラーニング、DiAL)は、ベイズに触発されたアクティブラーニングアルゴリズムの設計手法である。我々のフレームワークはディリクレ確率場として特徴条件クラス確率をモデル化する。
論文参考訳（メタデータ） (2023-11-09T16:39:02Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。 GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文参考訳（メタデータ） (2023-02-13T18:24:21Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Convolutional Bayesian Kernel Inference for 3D Semantic Mapping [1.7615233156139762]
本稿では,ベイズ的推論を明示的に行うことを学ぶ畳み込みベイズ的カーネル推論層を紹介する。 We learn semantic-geometric probability distributions for LiDAR sensor information and incorporated semantic predictions into a global map。我々は、KITTIデータセット上での最先端セマンティックマッピングアルゴリズムに対するネットワークの評価を行い、同等のセマンティックラベル推論結果によるレイテンシの向上を実証した。
論文参考訳（メタデータ） (2022-09-21T21:15:12Z)
PROB-SLAM: Real-time Visual SLAM Based on Probabilistic Graph Optimization [0.0]
従来のSLAMアルゴリズムは通常、高いレベルの情報を持たない人工的な特徴に基づいている。意味情報を導入することで、SLAMは純粋に手作りの機能よりも高い安定性と堅牢性を持つことができる。本稿ではガウス分布仮定に基づく新しい確率写像を提案する。動的オブジェクトを含む環境に適用できることを実証した。
論文参考訳（メタデータ） (2022-09-15T05:47:17Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文参考訳（メタデータ） (2021-04-01T03:21:57Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。