Fugu-MT 論文翻訳(概要): VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization

論文の概要: VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization

arxiv url: http://arxiv.org/abs/2003.07289v4
Date: Thu, 14 Jan 2021 00:46:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 15:45:36.992184
Title: VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization
Title（参考訳）: VMLOC:学習型マルチモーダルカメラローカライゼーションのための変分融合
Authors: Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki Trigoni, Andrew Markham
Abstract要約: 本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
参考スコア（独自算出の注目度）: 46.607930208613574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent learning-based approaches have achieved impressive results in the field of single-shot camera localization. However, how best to fuse multiple modalities (e.g., image and depth) and to deal with degraded or missing input are less well studied. In particular, we note that previous approaches towards deep fusion do not perform significantly better than models employing a single modality. We conjecture that this is because of the naive approaches to feature space fusion through summation or concatenation which do not take into account the different strengths of each modality. To address this, we propose an end-to-end framework, termed VMLoc, to fuse different sensor inputs into a common latent space through a variational Product-of-Experts (PoE) followed by attention-based fusion. Unlike previous multimodal variational works directly adapting the objective function of vanilla variational auto-encoder, we show how camera localization can be accurately estimated through an unbiased objective function based on importance weighting. Our model is extensively evaluated on RGB-D datasets and the results prove the efficacy of our model. The source code is available at https://github.com/Zalex97/VMLoc.
Abstract（参考訳）: 近年の学習に基づくアプローチは、シングルショットカメラのローカライゼーションの分野で大きな成果を上げている。しかし、複数のモダリティ(画像や深度など)を融合し、劣化した入力や不足した入力に対処する最善の方法は、あまり研究されていない。特に、ディープフュージョンに対する従来のアプローチは、単一のモダリティを用いたモデルよりも大幅に改善されないことに留意する。これは、各モダリティの異なる強さを考慮に入れない和や連結による特徴空間の融合に対するナイーブなアプローチによるものであると推測する。そこで本稿では,様々なセンサ入力を,poe(variational product-of-experts)と注意に基づく融合によって共通の潜在空間に融合する,vmlocと呼ばれるエンドツーエンドフレームワークを提案する。従来のマルチモーダル変分法ではバニラ変分オートエンコーダの目的関数を直接適応させるのと異なり,重要重み付けに基づく偏りのない対象関数を用いてカメラの定位を正確に推定できることを示す。提案モデルはRGB-Dデータセット上で広範囲に評価され,本モデルの有効性が証明された。ソースコードはhttps://github.com/zalex97/vmlocで入手できる。

関連論文リスト

A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification [5.381099682416992]
マルチスペクトル (MS) とパンクロマティック (PAN) の画像は同じ陸面を描いている。これらの類似した情報とそれぞれの利点を分離するために、融合段階における特徴冗長性を減少させる。本稿では,マルチモーダルリモートセンシング画像分類のための拡散注意状態空間融合モデル(DAS2F-Model)を提案する。
論文参考訳（メタデータ） (2025-04-23T12:34:32Z)
Fine-Grained Scene Image Classification with Modality-Agnostic Adapter [8.801601759337006]
MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。我々は分散のモーダル差を排除し、その後、意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2024-07-03T02:57:14Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文参考訳（メタデータ） (2022-09-30T15:01:35Z)
FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文参考訳（メタデータ） (2022-09-22T19:06:55Z)
Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文参考訳（メタデータ） (2022-03-30T13:00:27Z)
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文参考訳（メタデータ） (2022-03-15T18:46:06Z)
Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文参考訳（メタデータ） (2021-04-07T04:03:20Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。