論文の概要: Multi-Attribute guided Thermal Face Image Translation based on Latent Diffusion Model
- arxiv url: http://arxiv.org/abs/2512.21032v1
- Date: Wed, 24 Dec 2025 07:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.725179
- Title: Multi-Attribute guided Thermal Face Image Translation based on Latent Diffusion Model
- Title(参考訳): 潜時拡散モデルに基づくマルチ属性誘導熱顔画像変換
- Authors: Mingshu Cai, Osamu Yoshie, Yuya Ieiri,
- Abstract要約: 本稿では,熱入力から高品質な顔画像を生成するために,新しい潜時拡散モデルを提案する。
マルチ属性分類器は、可視画像から重要な顔属性を抽出し、赤外線可視画像復元時の特徴損失を軽減する。
- 参考スコア(独自算出の注目度): 3.995408039775796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern surveillance systems increasingly rely on multi-wavelength sensors and deep neural networks to recognize faces in infrared images captured at night. However, most facial recognition models are trained on visible light datasets, leading to substantial performance degradation on infrared inputs due to significant domain shifts. Early feature-based methods for infrared face recognition proved ineffective, prompting researchers to adopt generative approaches that convert infrared images into visible light images for improved recognition. This paradigm, known as Heterogeneous Face Recognition (HFR), faces challenges such as model and modality discrepancies, leading to distortion and feature loss in generated images. To address these limitations, this paper introduces a novel latent diffusion-based model designed to generate high-quality visible face images from thermal inputs while preserving critical identity features. A multi-attribute classifier is incorporated to extract key facial attributes from visible images, mitigating feature loss during infrared-to-visible image restoration. Additionally, we propose the Self-attn Mamba module, which enhances global modeling of cross-modal features and significantly improves inference speed. Experimental results on two benchmark datasets demonstrate the superiority of our approach, achieving state-of-the-art performance in both image quality and identity preservation.
- Abstract(参考訳): 現代の監視システムは、夜間に撮影された赤外線画像の顔を認識するために、多波長センサーやディープニューラルネットワークにますます依存している。
しかし、ほとんどの顔認識モデルは可視光データセットに基づいて訓練されており、大きなドメインシフトのために赤外線入力のパフォーマンスが大幅に低下する。
初期の特徴に基づく赤外線顔認識法は効果がないことが証明され、研究者は赤外線画像から可視光画像へ変換して認識を改善するジェネレーティブアプローチを採用するようになった。
このパラダイムは、HFR(Heterogeneous Face Recognition)と呼ばれ、モデルやモダリティの相違といった課題に直面し、生成された画像の歪みや特徴損失につながる。
これらの制約に対処するため, 本論文では, 重要な特徴を保ちながら, 熱入力から高品質な顔画像を生成するために設計された, 潜時拡散に基づく新しいモデルを提案する。
マルチ属性分類器は、可視画像から重要な顔属性を抽出し、赤外線可視画像復元時の特徴損失を軽減する。
さらに,クロスモーダルな特徴のグローバルなモデリングを強化し,推論速度を大幅に改善するSelf-attn Mambaモジュールを提案する。
2つのベンチマークデータセットによる実験結果から, 画像品質とアイデンティティ保存の両面において, 最先端の性能を実現し, アプローチの優位性を実証した。
関連論文リスト
- Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark [58.61079960074608]
既存の赤外線画像強調法は、個々の劣化に対処することに焦点を当てている。
一般的にRGBセンサーに適用されるオールインワンエンハンスメント法は、有効性が制限されることが多い。
論文 参考訳(メタデータ) (2025-10-10T12:55:54Z) - DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution [32.53713932204663]
DifIISRは、視覚品質と知覚性能に最適化された赤外線画像超解像拡散モデルである。
我々は、視力を維持するために赤外線熱スペクトル分布制御を導入する。
下流の視覚課題に対する知覚的ガイダンスとして,様々な視覚基盤モデルを組み込んだ。
論文 参考訳(メタデータ) (2025-03-03T05:20:57Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - A Bidirectional Conversion Network for Cross-Spectral Face Recognition [1.9766522384767227]
可視光画像と赤外線画像との劇的な違いにより、スペクトル間顔認識は困難である。
本稿では,異種顔画像間の双方向クロススペクトル変換(BCSC-GAN)の枠組みを提案する。
ネットワークは、スペクトル間認識問題をスペクトル内問題に還元し、双方向情報を融合することで性能を向上させる。
論文 参考訳(メタデータ) (2022-05-03T16:20:10Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - A Synthesis-Based Approach for Thermal-to-Visible Face Verification [105.63410428506536]
本稿では,ARL-VTFおよびTUFTSマルチスペクトル顔データセット上での最先端性能を実現するアルゴリズムを提案する。
MILAB-VTF(B)も提案する。
論文 参考訳(メタデータ) (2021-08-21T17:59:56Z) - Simultaneous Face Hallucination and Translation for Thermal to Visible
Face Verification using Axial-GAN [74.22129648654783]
低分解能熱画像から熱可視面検証のタスクを紹介します。
本稿では,Axial-Generative Adversarial Network (Axial-GAN)を提案する。
論文 参考訳(メタデータ) (2021-04-13T22:34:28Z) - HyperFaceNet: A Hyperspectral Face Recognition Method Based on Deep
Fusion [0.7734726150561088]
異なる光バンド、すなわちハイパースペクトル顔認識を融合する方法は、まだオープンな研究課題である。
本稿では,特にハイパースペクトル面に対する新しい融合モデル(HyperFaceNet)を提案する。
本手法は,可視光や赤外線を用いた顔認識よりも高い認識率を示す。
論文 参考訳(メタデータ) (2020-08-02T14:59:24Z) - Multi-Scale Thermal to Visible Face Verification via Attribute Guided
Synthesis [55.29770222566124]
可視画像から抽出した属性を用いて、熱画像から属性保存された可視画像を合成し、クロスモーダルマッチングを行う。
抽出した属性によって導かれる熱画像から可視像を合成するために, 新規なマルチスケールジェネレータを提案する。
事前訓練されたVGG-Faceネットワークを利用して、合成画像と入力可視画像から特徴を抽出し、検証を行う。
論文 参考訳(メタデータ) (2020-04-20T01:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。