論文の概要: XoFTR: Cross-modal Feature Matching Transformer
- arxiv url: http://arxiv.org/abs/2404.09692v1
- Date: Mon, 15 Apr 2024 11:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:40:28.451179
- Title: XoFTR: Cross-modal Feature Matching Transformer
- Title(参考訳): XoFTR: クロスモーダルな特徴マッチングトランス
- Authors: Önder Tuzcuoğlu, Aybora Köksal, Buğra Sofu, Sinan Kalkan, A. Aydın Alatan,
- Abstract要約: 熱赤外(TIR)と可視画像の局所的特徴マッチングのためのクロスモーダル・クロスビュー法
XTRoFにはマスク付き画像モデリングと擬似熱画像拡張による微調整が組み込まれている。
提案手法の有効性を検証するため,包括的可視熱的データセットを収集し,提案手法が多くのベンチマークにおいて既存手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 7.686047196317477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce, XoFTR, a cross-modal cross-view method for local feature matching between thermal infrared (TIR) and visible images. Unlike visible images, TIR images are less susceptible to adverse lighting and weather conditions but present difficulties in matching due to significant texture and intensity differences. Current hand-crafted and learning-based methods for visible-TIR matching fall short in handling viewpoint, scale, and texture diversities. To address this, XoFTR incorporates masked image modeling pre-training and fine-tuning with pseudo-thermal image augmentation to handle the modality differences. Additionally, we introduce a refined matching pipeline that adjusts for scale discrepancies and enhances match reliability through sub-pixel level refinement. To validate our approach, we collect a comprehensive visible-thermal dataset, and show that our method outperforms existing methods on many benchmarks.
- Abstract(参考訳): 熱赤外(TIR)と可視画像の局所的特徴マッチングのためのクロスモーダル・クロスビュー手法であるXoFTRを紹介する。
可視画像と異なり、TIR画像は悪照明や気象条件の影響を受けにくいが、テクスチャや強度の違いによりマッチングが困難である。
目に見えるTIRマッチングのための手作りおよび学習に基づく現在の手法は、視点、スケール、テクスチャの多様性を扱うのに不足している。
この問題を解決するために、XoFTRはマスク付き画像モデリングと擬似熱画像拡張による微調整を取り入れ、モダリティの違いに対処する。
さらに,解像度の差を補正し,サブピクセルレベルの精細化によりマッチング信頼性を向上させる改良されたマッチングパイプラインを導入する。
提案手法の有効性を検証するため,包括的可視熱的データセットを収集し,提案手法が多くのベンチマークにおいて既存手法よりも優れていることを示す。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる新しいMambaスキャニング機構を提案する。
また,Retinex の先行したRetinex Decomposition Module (RDM) も提案する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。
既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。
提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-06-21T13:03:47Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Simultaneous Face Hallucination and Translation for Thermal to Visible
Face Verification using Axial-GAN [74.22129648654783]
低分解能熱画像から熱可視面検証のタスクを紹介します。
本稿では,Axial-Generative Adversarial Network (Axial-GAN)を提案する。
論文 参考訳(メタデータ) (2021-04-13T22:34:28Z) - Bayesian Fusion for Infrared and Visible Images [26.64101343489016]
本稿では,赤外・可視画像のための新しいベイズ融合モデルを構築した。
我々は、融合画像が人間の視覚系を満たすようにすることを目指している。
従来の手法と比較して、新しいモデルは、高照度なターゲットとリッチテクスチャの詳細を持つより良い融合画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-12T14:57:19Z) - Pyramidal Edge-maps and Attention based Guided Thermal Super-resolution [28.798966778371145]
可視領域画像を用いた熱画像の誘導超解像(GSR)は、画像間のスペクトル範囲の違いにより困難である。
可視画像から抽出したピラミッド状エッジマップに基づくGSRの新しいアルゴリズムを提案する。
我々のモデルは、定量的にも定性的にも、最先端のGSR法よりも優れています。
論文 参考訳(メタデータ) (2020-03-13T12:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。