論文の概要: 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference
- arxiv url: http://arxiv.org/abs/2004.04807v2
- Date: Thu, 16 Jul 2020 07:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:46:40.418812
- Title: 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference
- Title(参考訳): 連続マルチモーダル推論による曖昧な場面における6次元カメラ再配置
- Authors: Mai Bui and Tolga Birdal and Haowen Deng and Shadi Albarqouni and
Leonidas Guibas and Slobodan Ilic and Nassir Navab
- Abstract要約: あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 67.70859730448473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a multimodal camera relocalization framework that captures
ambiguities and uncertainties with continuous mixture models defined on the
manifold of camera poses. In highly ambiguous environments, which can easily
arise due to symmetries and repetitive structures in the scene, computing one
plausible solution (what most state-of-the-art methods currently regress) may
not be sufficient. Instead we predict multiple camera pose hypotheses as well
as the respective uncertainty for each prediction. Towards this aim, we use
Bingham distributions, to model the orientation of the camera pose, and a
multivariate Gaussian to model the position, with an end-to-end deep neural
network. By incorporating a Winner-Takes-All training scheme, we finally obtain
a mixture model that is well suited for explaining ambiguities in the scene,
yet does not suffer from mode collapse, a common problem with mixture density
networks. We introduce a new dataset specifically designed to foster camera
localization research in ambiguous environments and exhaustively evaluate our
method on synthetic as well as real data on both ambiguous scenes and on
non-ambiguous benchmark datasets. We plan to release our code and dataset under
$\href{https://multimodal3dvision.github.io}{multimodal3dvision.github.io}$.
- Abstract(参考訳): 本稿では,カメラポーズの多様体上に定義された連続混合モデルとのあいまいさと不確かさを捉えるマルチモーダルカメラ再局在化フレームワークを提案する。
現場の対称性や繰り返し構造によって容易に生じる非常にあいまいな環境では、1つの可算解(現在の最先端の手法)を計算しても十分ではないかもしれない。
代わりに、複数のカメラが仮説を仮定し、各予測に対する不確実性を予測する。
この目的に向けて、カメラの姿勢をモデル化するビンガム分布と、エンドツーエンドのディープニューラルネットワークを用いて位置をモデル化する多変量ガウス分布を用いる。
勝者全員の訓練を組み込むことで,シーンの曖昧さを説明するのに適した混合モデルが得られたが,混合密度ネットワークにおける一般的な問題であるモード崩壊に苦しむことはない。
我々は、不明瞭な環境におけるカメラのローカライゼーション研究の促進と、あいまいなシーンと非あいまいなベンチマークデータセットの両方の実際のデータに対する我々の方法の徹底的な評価を目的として、新しいデータセットを導入した。
コードとデータセットを$\href{https://multimodal3dvision.github.io}{multimodal3dvision.github.io}$でリリースする予定です。
関連論文リスト
- Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - A Probabilistic Framework for Visual Localization in Ambiguous Scenes [64.13544430239267]
本稿では,カメラポーズの任意の形状の後部分布を予測する確率的枠組みを提案する。
我々は、予測分布からサンプリングできる変分推論を用いて、カメラポーズ回帰の新たな定式化によってこれを行う。
本手法は,不明瞭なシーンの局所化において,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-01-05T14:46:54Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty
Estimation [34.8860186009308]
複数の車載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深層センサ融合フレームワークを提案する。
我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2021-12-23T19:44:45Z) - A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving [0.5735035463793008]
本研究では,移動車に装着した単眼カメラを用いて,屋外環境の幾何学的形状の高密度な3次元モデルを再構成する。
本システムでは,最先端のスパース特徴と高密度融合型視覚SLAMアルゴリズムを組み合わせたハイブリッドマッピングアーキテクチャを用いて深度予測を行う。
論文 参考訳(メタデータ) (2021-08-17T16:13:01Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。