論文の概要: VisIRNet: Deep Image Alignment for UAV-taken Visible and Infrared Image
Pairs
- arxiv url: http://arxiv.org/abs/2402.09635v1
- Date: Thu, 15 Feb 2024 00:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:28:35.144652
- Title: VisIRNet: Deep Image Alignment for UAV-taken Visible and Infrared Image
Pairs
- Title(参考訳): visirnet: uav-taken可視および赤外線画像対のための奥行き画像アライメント
- Authors: Sedat Ozer, Alain P. Ndigande
- Abstract要約: 我々は,LK法を使わずに成果を得られることを示す。
提案手法では,特徴埋め込みブロックに基づく2分岐型畳み込みニューラルネットワーク(CNN)を慎重に利用する。
- 参考スコア(独自算出の注目度): 4.6040036610482655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a deep learning based solution for multi-modal image
alignment regarding UAV-taken images. Many recently proposed state-of-the-art
alignment techniques rely on using Lucas-Kanade (LK) based solutions for a
successful alignment. However, we show that we can achieve state of the art
results without using LK-based methods. Our approach carefully utilizes a
two-branch based convolutional neural network (CNN) based on feature embedding
blocks. We propose two variants of our approach, where in the first variant
(ModelA), we directly predict the new coordinates of only the four corners of
the image to be aligned; and in the second one (ModelB), we predict the
homography matrix directly. Applying alignment on the image corners forces
algorithm to match only those four corners as opposed to computing and matching
many (key)points, since the latter may cause many outliers, yielding less
accurate alignment. We test our proposed approach on four aerial datasets and
obtain state of the art results, when compared to the existing recent deep
LK-based architectures.
- Abstract(参考訳): 本稿では,uav撮像画像に関するマルチモーダル画像アライメントのための深層学習に基づくソリューションを提案する。
最近提案された最先端アライメント技術の多くは、ルーカス・カナード(LK)ベースのソリューションを使ってアライメントを成功させる。
しかし,lkベースの手法を使わずに最先端の成果が得られることを示す。
提案手法では,特徴埋め込みブロックに基づく2分岐型畳み込みニューラルネットワーク(CNN)を慎重に利用する。
アプローチの2つの変種を提案し、第1変種(ModelA)では、画像の四隅のみの新しい座標を直接予測し、第2変種(ModelB)では、ホモグラフィ行列を直接予測する。
イメージコーナーにアライメントを適用すると、アルゴリズムは計算とは対照的にこれらの4つのコーナーのみをマッチングさせ、多くの(キー)ポイントをマッチングする。
我々は,提案手法を4つの空中データセット上でテストし,最新のdeep lkベースのアーキテクチャと比較した結果を得た。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - PRISE: Demystifying Deep Lucas-Kanade with Strongly Star-Convex
Constraints for Multimodel Image Alignment [18.30521162275051]
ルーカス・カナーデ法(英語版)(LK)は、画像の古典的反復的ホモグラフィー推定アルゴリズムであるが、画像対に歪みがある場合、特に局所的最適性に悩まされることが多い。
本稿では、画像最適化のための新しいDeep Star-Convexified Lucas-Kanade(RISE)法を提案する。
論文 参考訳(メタデータ) (2023-03-21T01:19:35Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - LM-Reloc: Levenberg-Marquardt Based Direct Visual Relocalization [54.77498358487812]
LM-Relocは、直接画像アライメントに基づく視覚的再ローカライズのための新しいアプローチである。
本稿では,LM-Net を学習するための古典的レバンス・マルカルトアルゴリズムにインスパイアされた損失定式化を提案する。
論文 参考訳(メタデータ) (2020-10-13T12:15:20Z) - A Lightweight Neural Network for Monocular View Generation with
Occlusion Handling [46.74874316127603]
1枚の画像からビュー合成を行うステレオデータペアに基づいて訓練された,非常に軽量なニューラルネットワークアーキテクチャを提案する。
この作業は、挑戦的なKITTIデータセットにおいて、視覚的および計量的に最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-24T15:29:01Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - Fast Distance-based Anomaly Detection in Images Using an Inception-like
Autoencoder [16.157879279661362]
畳み込みオートエンコーダ(CAE)を訓練し、画像の低次元表現を抽出する。
画像の学習表現の低次元空間に距離ベースの異常検出器を用いる。
その結果,予測性能が向上した。
論文 参考訳(メタデータ) (2020-03-12T16:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。