論文の概要: SC3EF: A Joint Self-Correlation and Cross-Correspondence Estimation Framework for Visible and Thermal Image Registration
- arxiv url: http://arxiv.org/abs/2504.12869v1
- Date: Thu, 17 Apr 2025 11:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:48.620302
- Title: SC3EF: A Joint Self-Correlation and Cross-Correspondence Estimation Framework for Visible and Thermal Image Registration
- Title(参考訳): SC3EF:可視・熱画像登録のための共同自己相関・相互対応推定フレームワーク
- Authors: Xi Tong, Xing Luo, Jiangxin Yang, Yanpeng Cao,
- Abstract要約: 正確な可視熱(RGB-T)画像の登録は重要な課題である。
我々は,新しい自己相関と相互対応推定フレームワーク(SC3EF)を提案する。
本稿では,提案手法の有効性を示し,RGB-Tデータセット上での現在の最先端(SOTA)手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.4668188256000576
- License:
- Abstract: Multispectral imaging plays a critical role in a range of intelligent transportation applications, including advanced driver assistance systems (ADAS), traffic monitoring, and night vision. However, accurate visible and thermal (RGB-T) image registration poses a significant challenge due to the considerable modality differences. In this paper, we present a novel joint Self-Correlation and Cross-Correspondence Estimation Framework (SC3EF), leveraging both local representative features and global contextual cues to effectively generate RGB-T correspondences. For this purpose, we design a convolution-transformer-based pipeline to extract local representative features and encode global correlations of intra-modality for inter-modality correspondence estimation between unaligned visible and thermal images. After merging the local and global correspondence estimation results, we further employ a hierarchical optical flow estimation decoder to progressively refine the estimated dense correspondence maps. Extensive experiments demonstrate the effectiveness of our proposed method, outperforming the current state-of-the-art (SOTA) methods on representative RGB-T datasets. Furthermore, it also shows competitive generalization capabilities across challenging scenarios, including large parallax, severe occlusions, adverse weather, and other cross-modal datasets (e.g., RGB-N and RGB-D).
- Abstract(参考訳): マルチスペクトルイメージングは、高度運転支援システム(ADAS)、交通監視、夜間視など、知的輸送アプリケーションにおいて重要な役割を担っている。
しかし、正確な可視・熱的(RGB-T)画像の登録は、かなりのモダリティの違いのために大きな課題となる。
本稿では,RGB-T対応を効果的に生成するために,局所的な特徴とグローバルな文脈的手がかりの両方を活用する,新たな自己相関・相互対応推定フレームワーク(SC3EF)を提案する。
この目的のために、コンボリューション変換器を用いたパイプラインを設計し、局所的な代表的特徴を抽出し、不整合可視画像と熱画像間のモダリティ間対応推定のためのモダリティ内関係のグローバルな相関を符号化する。
局所的および大域的対応推定結果をマージした後、階層的な光フロー推定デコーダを用いて、推定された高密度対応マップを段階的に洗練する。
汎用RGB-Tデータセット上でのSOTA(State-of-the-art)手法よりも優れていることを示す。
さらに、大きなパララックス、厳しい閉塞、悪天候、および他のモード間データセット(例えば、RGB-N、RGB-D)を含む、困難なシナリオ間の競争上の一般化能力を示す。
関連論文リスト
- Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。