論文の概要: A Light-weight Transformer-based Self-supervised Matching Network for Heterogeneous Images
- arxiv url: http://arxiv.org/abs/2404.19311v1
- Date: Tue, 30 Apr 2024 07:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:14:12.810872
- Title: A Light-weight Transformer-based Self-supervised Matching Network for Heterogeneous Images
- Title(参考訳): 不均一画像のための軽量トランスを用いた自己教師型マッチングネットワーク
- Authors: Wang Zhang, Tingting Li, Yuntian Zhang, Gensheng Pei, Xiruo Jiang, Yazhou Yao,
- Abstract要約: 本稿では,自己教師型マッチングネットワークを通じてロバストな特徴記述子を求めるキーポイント記述子手法を提案する。
LTFormerと呼ばれる軽量トランスフォーマーネットワークは、ディープレベルの特徴記述子を生成するように設計されている。
提案手法は従来の手作りの局所特徴記述子よりも優れており,最先端のディープラーニング手法と同等に競合することを示す。
- 参考スコア(独自算出の注目度): 22.762056000015832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching visible and near-infrared (NIR) images remains a significant challenge in remote sensing image fusion. The nonlinear radiometric differences between heterogeneous remote sensing images make the image matching task even more difficult. Deep learning has gained substantial attention in computer vision tasks in recent years. However, many methods rely on supervised learning and necessitate large amounts of annotated data. Nevertheless, annotated data is frequently limited in the field of remote sensing image matching. To address this challenge, this paper proposes a novel keypoint descriptor approach that obtains robust feature descriptors via a self-supervised matching network. A light-weight transformer network, termed as LTFormer, is designed to generate deep-level feature descriptors. Furthermore, we implement an innovative triplet loss function, LT Loss, to enhance the matching performance further. Our approach outperforms conventional hand-crafted local feature descriptors and proves equally competitive compared to state-of-the-art deep learning-based methods, even amidst the shortage of annotated data.
- Abstract(参考訳): 可視光と近赤外線(NIR)画像のマッチングは、リモートセンシング画像融合において重要な課題である。
不均一なリモートセンシング画像間の非線形ラジオメトリック差により、画像マッチング作業はさらに困難になる。
近年、ディープラーニングはコンピュータビジョンタスクに大きな注目を集めている。
しかし、多くの手法は教師付き学習に依存し、大量の注釈付きデータを必要とする。
それでも、アノテーション付きデータはリモートセンシング画像マッチングの分野においてしばしば制限される。
そこで本研究では,自己教師型マッチングネットワークを通じて,ロバストな特徴記述子を求めるキーポイント記述子アプローチを提案する。
LTFormerと呼ばれる軽量トランスフォーマーネットワークは、ディープレベルの特徴記述子を生成するように設計されている。
さらに,新たな三重項損失関数LT Lossを実装し,マッチング性能をさらに向上する。
提案手法は従来の手作りのローカル特徴記述子よりも優れており,注釈付きデータの不足中であっても,最先端のディープラーニングベースの手法と同等に競合することを示す。
関連論文リスト
- Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature
Ensemble for Multi-modality Image Fusion [72.8898811120795]
我々は、赤外線と可視画像の融合を実現するために、CoCoNetと呼ばれるコントラスト学習ネットワークを提案する。
本手法は,主観的評価と客観的評価の両面において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-11-20T12:02:07Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Transformer-based SAR Image Despeckling [53.99620005035804]
本稿では,SAR画像復号化のためのトランスフォーマーネットワークを提案する。
提案する非特定ネットワークは、トランスフォーマーベースのエンコーダにより、異なる画像領域間のグローバルな依存関係を学習することができる。
実験により,提案手法は従来型および畳み込み型ニューラルネットワークに基づく解法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2022-01-23T20:09:01Z) - Digging Into Self-Supervised Learning of Feature Descriptors [14.47046413243358]
強力な機能記述子に繋がる一連の改善を提案する。
強負の採鉱において, 対面内からバッチ内への探索空間の増大が一貫した改善をもたらすことを示す。
合成ホモグラフィ変換,色強調,フォトリアリスティック画像スタイリングの組み合わせが有用であることを示す。
論文 参考訳(メタデータ) (2021-10-10T12:22:44Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。