論文の概要: Towards RGB-NIR Cross-modality Image Registration and Beyond
- arxiv url: http://arxiv.org/abs/2405.19914v1
- Date: Thu, 30 May 2024 10:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:59:14.881882
- Title: Towards RGB-NIR Cross-modality Image Registration and Beyond
- Title(参考訳): RGB-NIRクロスモダリティ画像登録に向けて
- Authors: Huadong Li, Shichao Dong, Jin Wang, Rong Fu, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji,
- Abstract要約: 本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に着目した。
まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを示す。
次に、可視画像と赤外線画像の非一貫性な局所的特徴がモデル性能に与える影響を明らかにするために、いくつかの指標を設計する。
- 参考スコア(独自算出の注目度): 21.475871648254564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the area of RGB(visible)-NIR(near-infrared) cross-modality image registration, which is crucial for many downstream vision tasks to fully leverage the complementary information present in visible and infrared images. In this field, researchers face two primary challenges - the absence of a correctly-annotated benchmark with viewpoint variations for evaluating RGB-NIR cross-modality registration methods and the problem of inconsistent local features caused by the appearance discrepancy between RGB-NIR cross-modality images. To address these challenges, we first present the RGB-NIR Image Registration (RGB-NIR-IRegis) benchmark, which, for the first time, enables fair and comprehensive evaluations for the task of RGB-NIR cross-modality image registration. Evaluations of previous methods highlight the significant challenges posed by our RGB-NIR-IRegis benchmark, especially on RGB-NIR image pairs with viewpoint variations. To analyze the causes of the unsatisfying performance, we then design several metrics to reveal the toxic impact of inconsistent local features between visible and infrared images on the model performance. This further motivates us to develop a baseline method named Semantic Guidance Transformer (SGFormer), which utilizes high-level semantic guidance to mitigate the negative impact of local inconsistent features. Despite the simplicity of our motivation, extensive experimental results show the effectiveness of our method.
- Abstract(参考訳): 本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に焦点をあてる。
この分野では、RGB-NIRのクロスモダリティ登録方法を評価するための視点のバリエーションを備えた正しく注釈付けされたベンチマークが存在しないことと、RGB-NIRのクロスモダリティ画像間の外観の相違に起因する不整合な局所的特徴の問題という2つの主要な課題に直面している。
これらの課題に対処するために、まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを提示する。
従来手法の評価では,RGB-NIR-IRegisベンチマークによる重要な課題,特に視点変動のあるRGB-NIR画像対が顕著であった。
そして、不満足な性能の原因を分析するために、モデル性能に対する可視画像と赤外線画像の間の非一貫性な局所的特徴の有害な影響を明らかにするために、いくつかの指標を設計する。
これにより,局所的不整合性特徴の負の影響を軽減するために,高レベルのセマンティックガイダンスを利用するセマンティックガイダンストランスフォーマ (SGFormer) と呼ばれるベースライン手法の開発が促進される。
モチベーションの単純さにもかかわらず、広範な実験結果から、本手法の有効性が示された。
関連論文リスト
- Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation [0.536022165180739]
RGB入力から高画質近赤外(NIR)画像を生成する新しい画像画像変換フレームワークPix2Nextを提案する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
論文 参考訳(メタデータ) (2024-09-25T07:51:47Z) - Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる新しいMambaスキャニング機構を提案する。
また,Retinex の先行したRetinex Decomposition Module (RDM) も提案する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Visible-Infrared Person Re-Identification Using Privileged Intermediate
Information [10.816003787786766]
クロスモーダルな人物再識別(ReID)は、RGBとIRモダリティ間のデータ分散の大きなドメインシフトのために困難である。
本稿では2つのメインドメイン間のブリッジとして機能する中間仮想ドメインを作成するための新しいアプローチを提案する。
我々は、深いReIDモデルをトレーニングするための追加情報を提供する、可視領域と赤外線領域間の画像を生成する新しい手法を考案した。
論文 参考訳(メタデータ) (2022-09-19T21:08:14Z) - Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared
Person Re-Identification [84.32086702849338]
RGB-赤外線人物再同定のための新しいモダリティ適応混合・不変分解(MID)手法を提案する。
MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計する。
2つの挑戦的なベンチマーク実験は、最先端の手法よりもMIDの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-03T14:26:49Z) - A Similarity Inference Metric for RGB-Infrared Cross-Modality Person
Re-identification [66.49212581685127]
IRとRGBの相違が大きいため、モダリティの人物再識別(re-ID)は難しい課題である。
既存のメソッドはこの課題に対処するため、典型的には、特徴分布やイメージスタイルをモダリティ間で整列させることで対処する。
本稿では,モダリティ内サンプルの類似性を利用して,モダリティ間の相違を回避する新しい類似度推定指標(SIM)を提案する。
論文 参考訳(メタデータ) (2020-07-03T05:28:13Z) - Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality
Person Re-Identification [15.475897856494583]
従来の人物識別はRGBカラー画像しか扱えないが、暗い条件下では失敗する。
RGB赤外線ReID(Infrared-Visible ReID、Visible-Thermal ReIDとも呼ばれる)が提案されている。
本稿では, 新たなマルチスペクトル画像生成手法を提案し, 生成したサンプルを用いて, ネットワークの識別情報検索を支援する。
論文 参考訳(メタデータ) (2020-02-29T09:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。