論文の概要: VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization
- arxiv url: http://arxiv.org/abs/2003.07289v4
- Date: Thu, 14 Jan 2021 00:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:45:36.992184
- Title: VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization
- Title(参考訳): VMLOC:学習型マルチモーダルカメラローカライゼーションのための変分融合
- Authors: Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki
Trigoni, Andrew Markham
- Abstract要約: 本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
- 参考スコア(独自算出の注目度): 46.607930208613574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent learning-based approaches have achieved impressive results in the
field of single-shot camera localization. However, how best to fuse multiple
modalities (e.g., image and depth) and to deal with degraded or missing input
are less well studied. In particular, we note that previous approaches towards
deep fusion do not perform significantly better than models employing a single
modality. We conjecture that this is because of the naive approaches to feature
space fusion through summation or concatenation which do not take into account
the different strengths of each modality. To address this, we propose an
end-to-end framework, termed VMLoc, to fuse different sensor inputs into a
common latent space through a variational Product-of-Experts (PoE) followed by
attention-based fusion. Unlike previous multimodal variational works directly
adapting the objective function of vanilla variational auto-encoder, we show
how camera localization can be accurately estimated through an unbiased
objective function based on importance weighting. Our model is extensively
evaluated on RGB-D datasets and the results prove the efficacy of our model.
The source code is available at https://github.com/Zalex97/VMLoc.
- Abstract(参考訳): 近年の学習に基づくアプローチは、シングルショットカメラのローカライゼーションの分野で大きな成果を上げている。
しかし、複数のモダリティ(画像や深度など)を融合し、劣化した入力や不足した入力に対処する最善の方法は、あまり研究されていない。
特に、ディープフュージョンに対する従来のアプローチは、単一のモダリティを用いたモデルよりも大幅に改善されないことに留意する。
これは、各モダリティの異なる強さを考慮に入れない和や連結による特徴空間の融合に対するナイーブなアプローチによるものであると推測する。
そこで本稿では,様々なセンサ入力を,poe(variational product-of-experts)と注意に基づく融合によって共通の潜在空間に融合する,vmlocと呼ばれるエンドツーエンドフレームワークを提案する。
従来のマルチモーダル変分法ではバニラ変分オートエンコーダの目的関数を直接適応させるのと異なり,重要重み付けに基づく偏りのない対象関数を用いてカメラの定位を正確に推定できることを示す。
提案モデルはRGB-Dデータセット上で広範囲に評価され,本モデルの有効性が証明された。
ソースコードはhttps://github.com/zalex97/vmlocで入手できる。
関連論文リスト
- Fine-Grained Scene Image Classification with Modality-Agnostic Adapter [8.801601759337006]
MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。
我々は分散のモーダル差を排除し、その後、意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。
実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-03T02:57:14Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image
Fusion [16.64908104831795]
本稿では,多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層型変分オートエンコーダを提案する。
提案手法では,複数ノイズ,隠蔽,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T19:06:55Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。