論文の概要: MTSIC: Multi-stage Transformer-based GAN for Spectral Infrared Image Colorization
- arxiv url: http://arxiv.org/abs/2506.17540v1
- Date: Sat, 21 Jun 2025 01:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.464778
- Title: MTSIC: Multi-stage Transformer-based GAN for Spectral Infrared Image Colorization
- Title(参考訳): MTSIC:マルチステージ変換器を用いた分光赤外画像カラー化のためのGAN
- Authors: Tingting Liu, Yuan Liu, Jinhui Tang, Liyin Yuan, Chengyu Liu, Chunlai Li, Xiubao Sui, Qian Chen,
- Abstract要約: 既存のカラー化手法は、スペクトル情報に制限があり、特徴抽出能力が不十分なシングルバンド画像に依存している。
本稿では、スペクトル情報を統合し、赤外線画像のカラー化を強化するために、GAN(Generative Adversarial Network)ベースのフレームワークを提案する。
実験の結果,提案手法は従来の手法よりも優れ,赤外線画像の視覚的品質を効果的に向上させることがわかった。
- 参考スコア(独自算出の注目度): 26.33768545616346
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Thermal infrared (TIR) images, acquired through thermal radiation imaging, are unaffected by variations in lighting conditions and atmospheric haze. However, TIR images inherently lack color and texture information, limiting downstream tasks and potentially causing visual fatigue. Existing colorization methods primarily rely on single-band images with limited spectral information and insufficient feature extraction capabilities, which often result in image distortion and semantic ambiguity. In contrast, multiband infrared imagery provides richer spectral data, facilitating the preservation of finer details and enhancing semantic accuracy. In this paper, we propose a generative adversarial network (GAN)-based framework designed to integrate spectral information to enhance the colorization of infrared images. The framework employs a multi-stage spectral self-attention Transformer network (MTSIC) as the generator. Each spectral feature is treated as a token for self-attention computation, and a multi-head self-attention mechanism forms a spatial-spectral attention residual block (SARB), achieving multi-band feature mapping and reducing semantic confusion. Multiple SARB units are integrated into a Transformer-based single-stage network (STformer), which uses a U-shaped architecture to extract contextual information, combined with multi-scale wavelet blocks (MSWB) to align semantic information in the spatial-frequency dual domain. Multiple STformer modules are cascaded to form MTSIC, progressively optimizing the reconstruction quality. Experimental results demonstrate that the proposed method significantly outperforms traditional techniques and effectively enhances the visual quality of infrared images.
- Abstract(参考訳): 熱放射イメージングにより得られた熱赤外(TIR)画像は、照明条件や大気ヘイズの影響を受けない。
しかし、TIR画像は本質的に色やテクスチャの情報がなく、下流のタスクを制限し、視覚的疲労を引き起こす可能性がある。
既存のカラー化法は主にスペクトル情報に制限があり、特徴抽出能力が不十分なシングルバンド画像に依存しており、画像の歪みや意味的曖昧さをもたらすことが多い。
対照的に、マルチバンド赤外線画像はよりリッチなスペクトルデータを提供し、より微細なディテールの保存を容易にし、セマンティックな精度を高める。
本稿では、スペクトル情報を統合し、赤外線画像のカラー化を強化するために、GAN(Generative Adversarial Network)ベースのフレームワークを提案する。
このフレームワークは、MTSIC(Multi-stage Spectrum Self-attention Transformer Network)をジェネレータとして採用している。
各スペクトル特徴は自己アテンション計算のトークンとして扱われ、マルチヘッド自己アテンション機構は空間スペクトル残差ブロック(SARB)を形成し、マルチバンド特徴マッピングを実現し、意味的混乱を低減する。
複数のSARBユニットをトランスフォーマーベースのシングルステージネットワーク(STformer)に統合し、U字型アーキテクチャを用いてコンテキスト情報を抽出し、マルチスケールウェーブレットブロック(MSWB)と組み合わせて空間周波数二重領域における意味情報を整合させる。
複数のSTformerモジュールをカスケードしてMCSICを形成し、再構築品質を徐々に最適化する。
実験の結果,提案手法は従来の手法よりも優れ,赤外線画像の視覚的品質を効果的に向上させることがわかった。
関連論文リスト
- Infrared and Visible Image Fusion Based on Implicit Neural Representations [3.8530055385287403]
赤外線と可視光画像融合は、両モードの強度を組み合わせることで、情報に富む画像を生成することを目的としている。
Inlicit Neural Representations (INR) に基づく画像融合手法を提案する。
実験の結果,INRFuseは主観的視覚的品質と客観的評価指標の両方において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-20T06:34:19Z) - DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。
DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している
提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2025-05-07T15:59:45Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - GAN-HA: A generative adversarial network with a novel heterogeneous dual-discriminator network and a new attention-based fusion strategy for infrared and visible image fusion [0.1160897408844138]
赤外線・可視画像融合(IVIF)は、可視画像からテクスチャの詳細を統合しつつ、赤外線画像からの熱放射情報を保存することを目的としている。
既存の二重識別器生成敵ネットワーク(GAN)は、2つの構造的に同一の識別器を学習に頼っていることが多い。
本稿では,異種二重識別器ネットワークと注意に基づく融合戦略を備えた新しいGANを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:06:52Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - RSFDM-Net: Real-time Spatial and Frequency Domains Modulation Network
for Underwater Image Enhancement [5.3240763486073055]
水中画像における色や細部を効率的に拡張するためのリアルタイム空間・周波数領域変調ネットワーク(RSFDM-Net)を提案する。
提案した条件付きネットワークは,適応フーリエゲーティング機構 (AFGM) とマルチスケール・コントラルアテンションモジュール (MCAM) を用いて設計されている。
画像のカラーキャストと低彩度をより正確に補正するために、一次ネットに3分岐特徴抽出(TFE)ブロックを導入する。
論文 参考訳(メタデータ) (2023-02-23T17:27:05Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Underwater Image Enhancement via Medium Transmission-Guided Multi-Color
Space Embedding [88.46682991985907]
本稿では,Ucolor と呼ばれる媒体透過誘導多色空間埋め込みによる水中画像強調ネットワークを提案する。
当社のネットワークは、複数の色空間を埋め込むことにより、水中画像の視覚的品質を効果的に改善できます。
論文 参考訳(メタデータ) (2021-04-27T07:35:30Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。