論文の概要: Learning multi-domain feature relation for visible and Long-wave
Infrared image patch matching
- arxiv url: http://arxiv.org/abs/2308.04880v1
- Date: Wed, 9 Aug 2023 11:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:01:52.116871
- Title: Learning multi-domain feature relation for visible and Long-wave
Infrared image patch matching
- Title(参考訳): 可視・長波赤外線パッチマッチングのための多領域特徴関係の学習
- Authors: Xiuwei Zhang, Yanping Li, Zhaoshuai Qi, Yi Sun, Yanning Zhang
- Abstract要約: 我々は、VL-CMIMと呼ばれる最大の可視・長波長赤外線画像パッチマッチングデータセットを提示する。
さらに,マルチドメイン特徴関連学習ネットワーク(MD-FRN)を提案する。
- 参考スコア(独自算出の注目度): 39.88037892637296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, learning-based algorithms have achieved promising performance on
cross-spectral image patch matching, which, however, is still far from
satisfactory for practical application. On the one hand, a lack of large-scale
dataset with diverse scenes haunts its further improvement for learning-based
algorithms, whose performances and generalization rely heavily on the dataset
size and diversity. On the other hand, more emphasis has been put on feature
relation in the spatial domain whereas the scale dependency between features
has often been ignored, leading to performance degeneration especially when
encountering significant appearance variations for cross-spectral patches. To
address these issues, we publish, to be best of our knowledge, the largest
visible and Long-wave Infrared (LWIR) image patch matching dataset, termed
VL-CMIM, which contains 1300 pairs of strictly aligned visible and LWIR images
and over 2 million patch pairs covering diverse scenes such as asteroid, field,
country, build, street and water.In addition, a multi-domain feature relation
learning network (MD-FRN) is proposed. Input by the features extracted from a
four-branch network, both feature relations in spatial and scale domains are
learned via a spatial correlation module (SCM) and multi-scale adaptive
aggregation module (MSAG), respectively. To further aggregate the multi-domain
relations, a deep domain interactive mechanism (DIM) is applied, where the
learnt spatial-relation and scale-relation features are exchanged and further
input into MSCRM and SCM. This mechanism allows our model to learn interactive
cross-domain feature relations, leading to improved robustness to significant
appearance changes due to different modality.
- Abstract(参考訳): 近年,クロススペクトル画像パッチマッチングにおいて,学習に基づくアルゴリズムが有望な性能を達成しているが,実際的な応用には程遠い。
一方、多様なシーンを持つ大規模データセットの欠如は、そのパフォーマンスと一般化がデータセットのサイズと多様性に大きく依存している学習ベースのアルゴリズムのさらなる改善を招いている。
一方、空間領域における特徴関係はより強調されているが、特徴間のスケール依存は無視されることが多く、特にクロススペクトルパッチの顕著な外観変化に遭遇する場合に性能劣化が生じる。
これらの問題に対処するため、我々は、最も大きな可視・長波長赤外線画像パッチマッチングデータセットであるVL-CMIMを公表した。VL-CMIMは、厳密に整列された1300対の可視・LWIR画像と、小惑星、フィールド、国、建設、路面、水などの多様な場面をカバーする200万以上のパッチ対を含む。さらに、多領域特徴関係学習ネットワーク(MD-FRN)を提案する。
四分岐ネットワークから抽出した特徴を入力として、空間相関モジュール(scm)と多スケール適応アグリゲーションモジュール(msag)を介して空間領域とスケール領域の特徴関係をそれぞれ学習する。
マルチドメイン関係をさらに集約するために、学習した空間関係とスケール関係の特徴を交換し、さらにMSCRMとSCMに入力するディープドメイン対話機構(DIM)を適用する。
このメカニズムにより,インタラクティブなクロスドメイン特徴関係を学習することが可能となり,異なるモダリティによる外観変化に対するロバスト性が向上した。
関連論文リスト
- Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Aligning Correlation Information for Domain Adaptation in Action
Recognition [14.586677030468339]
本稿では,画素相関の整合によるアクションビデオの整合化を目的とした新しい適応ネットワーク(ACAN)を提案する。
ACANは、Pixel correlation Discrepancy (PCD)として相関情報の分布を最小化することを目的としている。
論文 参考訳(メタデータ) (2021-07-11T00:13:36Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。