論文の概要: DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.01187v1
- Date: Mon, 03 Mar 2025 05:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:34.748365
- Title: DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution
- Title(参考訳): DifIISR:赤外画像超解像のための勾配誘導拡散モデル
- Authors: Xingyuan Li, Zirui Wang, Yang Zou, Zhixin Chen, Jun Ma, Zhiying Jiang, Long Ma, Jinyuan Liu,
- Abstract要約: DifIISRは、視覚品質と知覚性能に最適化された赤外線画像超解像拡散モデルである。
我々は、視力を維持するために赤外線熱スペクトル分布制御を導入する。
下流の視覚課題に対する知覚的ガイダンスとして,様々な視覚基盤モデルを組み込んだ。
- 参考スコア(独自算出の注目度): 32.53713932204663
- License:
- Abstract: Infrared imaging is essential for autonomous driving and robotic operations as a supportive modality due to its reliable performance in challenging environments. Despite its popularity, the limitations of infrared cameras, such as low spatial resolution and complex degradations, consistently challenge imaging quality and subsequent visual tasks. Hence, infrared image super-resolution (IISR) has been developed to address this challenge. While recent developments in diffusion models have greatly advanced this field, current methods to solve it either ignore the unique modal characteristics of infrared imaging or overlook the machine perception requirements. To bridge these gaps, we propose DifIISR, an infrared image super-resolution diffusion model optimized for visual quality and perceptual performance. Our approach achieves task-based guidance for diffusion by injecting gradients derived from visual and perceptual priors into the noise during the reverse process. Specifically, we introduce an infrared thermal spectrum distribution regulation to preserve visual fidelity, ensuring that the reconstructed infrared images closely align with high-resolution images by matching their frequency components. Subsequently, we incorporate various visual foundational models as the perceptual guidance for downstream visual tasks, infusing generalizable perceptual features beneficial for detection and segmentation. As a result, our approach gains superior visual results while attaining State-Of-The-Art downstream task performance. Code is available at https://github.com/zirui0625/DifIISR
- Abstract(参考訳): 課題のある環境での信頼性の高い性能のため、自律走行やロボット操作には赤外線イメージングが不可欠である。
その人気にもかかわらず、空間分解能の低さや複雑な劣化といった赤外線カメラの限界は、画像の品質とその後の視覚的タスクに常に挑戦している。
そのため、この課題に対処するために、赤外画像超解像(IISR)が開発された。
近年の拡散モデルの発展はこの分野で大きく進歩しているが、現在の方法では赤外線イメージングのユニークなモード特性を無視するか、機械の認識要求を無視するかのどちらかである。
これらのギャップを埋めるために、視覚的品質と知覚性能に最適化された赤外線画像超解像拡散モデルであるDifIISRを提案する。
提案手法は,視覚的および知覚的先行から導出される勾配を逆過程の雑音に注入することにより,タスクベースによる拡散誘導を実現する。
具体的には、その周波数成分をマッチングすることにより、再構成された赤外線画像と高分解能画像との密接な整合性を確保するために、赤外線熱スペクトル分布制御を導入する。
その後、下流視覚タスクの知覚誘導として様々な視覚基盤モデルを導入し、検出とセグメンテーションに有用な一般化可能な知覚特徴を注入する。
その結果、本手法は、State-Of-The-Artのダウンストリームタスク性能を達成しながら、優れた視覚的結果を得ることができた。
コードはhttps://github.com/zirui0625/DifIISRで公開されている。
関連論文リスト
- Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - NeRF-Casting: Improved View-Dependent Appearance with Consistent Reflections [57.63028964831785]
最近の研究は、遠方の環境照明の詳細な明細な外観を描画するNeRFの能力を改善しているが、近い内容の一貫した反射を合成することはできない。
我々はこれらの問題をレイトレーシングに基づくアプローチで解決する。
このモデルでは、それぞれのカメラ線に沿った点における視界依存放射率を求めるために高価なニューラルネットワークをクエリする代わりに、これらの点から光を流し、NeRF表現を通して特徴ベクトルを描画します。
論文 参考訳(メタデータ) (2024-05-23T17:59:57Z) - Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model [0.6817102408452475]
コンピュータビジョンでは、可視光画像は低照度条件において低コントラストを示すことが多く、重要な課題である。
近年のディープラーニング,特にGAN(Generative Adversarial Networks)の展開は,可視光画像から赤外線画像への変換を促進している。
可視光画像から高忠実度赤外線画像へ効率よく変換するエンド・ツー・エンド・エンド・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:02:26Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Towards High-quality HDR Deghosting with Conditional Diffusion Models [88.83729417524823]
高ダイナミックレンジ(LDR)画像は、既存のディープニューラルネットワーク(DNN)技術により、複数の低ダイナミックレンジ(LDR)画像から復元することができる。
DNNは、LDR画像が飽和度と大きな動きを持つ場合、ゴーストアーティファクトを生成する。
拡散モデルの条件としてLDR特徴を利用する画像生成としてHDRデゴースト問題を定式化する。
論文 参考訳(メタデータ) (2023-11-02T01:53:55Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Infrared Image Super-Resolution via Heterogeneous Convolutional WGAN [4.6667021835430145]
我々は、ヘテロジニアスカーネルベースの超解像ワッサースタインGAN(HetSRWGAN)をIR画像の超解像に用いるフレームワークを提案する。
HetSRWGANは定性評価と定量的評価の両方において一貫して優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-09-02T14:01:05Z) - Thermal Image Super-Resolution Using Second-Order Channel Attention with
Varying Receptive Fields [4.991042925292453]
熱画像の効率よく再構成するシステムを提案する。
熱画像の復元は、安全、捜索、救助、軍事活動を含む用途に不可欠である。
論文 参考訳(メタデータ) (2021-07-30T22:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。