論文の概要: Fusing Convolutional Neural Network and Geometric Constraint for
Image-based Indoor Localization
- arxiv url: http://arxiv.org/abs/2201.01408v1
- Date: Wed, 5 Jan 2022 02:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 18:16:36.752074
- Title: Fusing Convolutional Neural Network and Geometric Constraint for
Image-based Indoor Localization
- Title(参考訳): 画像を用いた屋内位置推定のためのFusing Convolutional Neural Networkと幾何学的制約
- Authors: Jingwei Song, Mitesh Patel, and Maani Ghaffari
- Abstract要約: 本稿では,カメラ/ロボットを明示的にローカライズする画像ベースローカライズフレームワークを提案する。
カメラは、観察された1つまたは少数の画像を使用してローカライズされ、6自由度なポーズラベルを持つ訓練画像を使用する。
シミュレーションと実データを用いた実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 4.071875179293035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a new image-based localization framework that explicitly
localizes the camera/robot by fusing Convolutional Neural Network (CNN) and
sequential images' geometric constraints. The camera is localized using a
single or few observed images and training images with 6-degree-of-freedom pose
labels. A Siamese network structure is adopted to train an image descriptor
network, and the visually similar candidate image in the training set is
retrieved to localize the testing image geometrically. Meanwhile, a
probabilistic motion model predicts the pose based on a constant velocity
assumption. The two estimated poses are finally fused using their uncertainties
to yield an accurate pose prediction. This method leverages the geometric
uncertainty and is applicable in indoor scenarios predominated by diffuse
illumination. Experiments on simulation and real data sets demonstrate the
efficiency of our proposed method. The results further show that combining the
CNN-based framework with geometric constraint achieves better accuracy when
compared with CNN-only methods, especially when the training data size is
small.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク(cnn)と逐次画像の幾何制約を用いて,カメラ/ロボットを明示的にローカライズする新しい画像ベースローカライズフレームワークを提案する。
カメラは、観察された1つまたは少数の画像と6自由度ポーズラベルのトレーニング画像を使用してローカライズされる。
画像ディスクリプタネットワークをトレーニングするためにシームズネットワーク構造を採用し、トレーニングセット内の視覚的に類似した候補画像を検索して、テストイメージを幾何学的にローカライズする。
一方、確率的動きモデルは、一定速度の仮定に基づいてポーズを予測する。
2つの推定されたポーズは、その不確実性を用いて最終的に融合され、正確なポーズ予測が得られる。
この方法は幾何学的不確実性を利用し、拡散照明が支配する屋内シナリオに適用できる。
シミュレーションと実データを用いた実験により,提案手法の有効性を示す。
さらに,CNNをベースとしたフレームワークと幾何学的制約を組み合わせることで,特にトレーニングデータサイズが小さい場合には,CNNのみの手法と比較して精度が向上することを示した。
関連論文リスト
- Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Transformer Guided Geometry Model for Flow-Based Unsupervised Visual
Odometry [38.20137500372927]
対画像からの情報を扱う2つのカメラポーズ推定器からなる手法を提案する。
画像シーケンスでは、Transformerライクな構造を採用して、局所的な時間ウィンドウ上にジオメトリモデルを構築する。
対向画像間の関係を利用するために,f2fpe(flow-to-flow pose estimator)を提案する。
論文 参考訳(メタデータ) (2020-12-08T19:39:26Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Neural Geometric Parser for Single Image Camera Calibration [17.393543270903653]
そこで本研究では,人為的なシーンに対して,ニューラルネットワークによる一眼レフカメラキャリブレーションを提案する。
提案手法は意味的手法と幾何学的手法の両方を考慮し,精度を著しく向上させる。
実験の結果,既存の最先端カメラキャリブレーション技術に比べて,ニューラルネットワークの性能は著しく高いことがわかった。
論文 参考訳(メタデータ) (2020-07-23T08:29:00Z) - Verification of Deep Convolutional Neural Networks Using ImageStars [10.44732293654293]
畳み込みニューラルネットワーク(CNN)は、多くの現実世界で最先端のアプリケーションを再定義している。
CNNは敵の攻撃に対して脆弱であり、入力のわずかな変更は出力の急激な変更につながる可能性がある。
本稿では,VGG16やVGG19などの実世界のCNNを,ImageNet上で高い精度で処理可能なセットベースフレームワークについて述べる。
論文 参考訳(メタデータ) (2020-04-12T00:37:21Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。