論文の概要: T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion
Probabilistic Models
- arxiv url: http://arxiv.org/abs/2209.08814v1
- Date: Mon, 19 Sep 2022 07:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:28:37.755024
- Title: T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion
Probabilistic Models
- Title(参考訳): T2V-DDPM:拡散確率モデルを用いた熱-可視顔翻訳
- Authors: Nithin Gopalakrishnan Nair and Vishal M. Patel
- Abstract要約: 本稿では,熱可視(T2V)画像翻訳のための解法として,DDPM(Denoising Diffusion Probabilistic Model)を提案する。
トレーニング中、モデルは、対応する熱画像から可視像の条件分布を学習する。
複数のデータセットで最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 71.94264837503135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern-day surveillance systems perform person recognition using deep
learning-based face verification networks. Most state-of-the-art facial
verification systems are trained using visible spectrum images. But, acquiring
images in the visible spectrum is impractical in scenarios of low-light and
nighttime conditions, and often images are captured in an alternate domain such
as the thermal infrared domain. Facial verification in thermal images is often
performed after retrieving the corresponding visible domain images. This is a
well-established problem often known as the Thermal-to-Visible (T2V) image
translation. In this paper, we propose a Denoising Diffusion Probabilistic
Model (DDPM) based solution for T2V translation specifically for facial images.
During training, the model learns the conditional distribution of visible
facial images given their corresponding thermal image through the diffusion
process. During inference, the visible domain image is obtained by starting
from Gaussian noise and performing denoising repeatedly. The existing inference
process for DDPMs is stochastic and time-consuming. Hence, we propose a novel
inference strategy for speeding up the inference time of DDPMs, specifically
for the problem of T2V image translation. We achieve the state-of-the-art
results on multiple datasets. The code and pretrained models are publically
available at http://github.com/Nithin-GK/T2V-DDPM
- Abstract(参考訳): 現代の監視システムは、深層学習に基づく顔認証ネットワークを用いて人物認識を行う。
ほとんどの最先端の顔認証システムは可視スペクトル画像を用いて訓練されている。
しかし、低照度および夜間条件のシナリオでは、可視スペクトルの画像を取得することは不可能であり、しばしば熱赤外領域のような別の領域で撮像される。
熱画像における顔認証は、対応する可視領域画像の検索後に行われることが多い。
これは熱可視(T2V)画像変換として知られるよく確立された問題である。
本稿では,顔画像に特有なT2V翻訳のための解法として,DDPM(Denoising Diffusion Probabilistic Model)を提案する。
トレーニング中、モデルは拡散過程を通じて、対応する熱画像から可視的顔画像の条件分布を学習する。
推測中は、ガウスノイズから始まり、繰り返しデノナイジングを行うことにより、可視領域画像を得る。
既存のDDPMの推論プロセスは確率的かつ時間を要する。
そこで本研究では,T2V画像翻訳の問題に対して,DDPMの推論時間を高速化する新たな推論手法を提案する。
複数のデータセットで最先端の結果を得る。
コードと事前訓練されたモデルはhttp://github.com/Nithin-GK/T2V-DDPMで公開されている。
関連論文リスト
- TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation [25.542902579879367]
本稿では,TC-DPM(Temporally Consistent Patch Diffusion Models)と呼ばれる新しい拡散法を提案する。
本手法は生成した可視画像の意味的構造を忠実に保存する。
TC-PDMは、赤外線可視ビデオ翻訳のFVDの35.3%、昼夜物体検出のAP50の6.1%で、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-26T12:43:48Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model [57.24046436423511]
近年,高画質テキスト・トゥ・イメージ(T2I)生成に強力な遅延拡散確率モデル (DPM) が適用されている。
段階的デノナイジング生成過程における中間状態を調べることでDPMの背後にあるメカニズムを解明する。
本稿では,テキストガイダンスを適切に取り除き,T2I生成プロセスの高速化に本観測を適用した。
論文 参考訳(メタデータ) (2024-05-24T08:12:41Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Binary Noise for Binary Tasks: Masked Bernoulli Diffusion for Unsupervised Anomaly Detection [1.5550533143704954]
本稿では,潜在ベルヌーイ拡散モデルに基づく新規かつ高速な教師なし異常検出手法を提案する。
我々は,他の拡散に基づく教師なし異常検出アルゴリズムと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T11:15:03Z) - Visible to Thermal image Translation for improving visual task in low
light conditions [0.0]
Parrot Anafi Thermalのドローンを使って、2つの場所から画像を収集した。
我々は2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練した。
その結果, RGB トレーニングデータを GAN を用いて熱データに変換することが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:18:53Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - Thermal to Visible Image Synthesis under Atmospheric Turbulence [67.99407460140263]
バイオメトリックスや監視では、低照度と夜間の条件下での撮像に熱画像モダリティがしばしば用いられる。
このような画像システムは、しばしば大気の乱れに悩まされ、撮像された画像に激しいぼやけや変形のアーチファクトをもたらす。
熱画像を直接可視光画像に変換するエンド・ツー・エンドの再構成法を提案する。
論文 参考訳(メタデータ) (2022-04-06T19:47:41Z) - UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion
Probabilistic Models [19.499490172426427]
そこで本研究では, 拡散確率モデルを用いた非対比画像・画像変換手法を提案する。
拡散確率モデル(UNIT-DDPM)を用いたUnpaired Image Translation with Denoising Diffusion Probabilistic Models (UNT-DDPM) は,両領域の画像の共同分布をマルコフ鎖として推定する生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-12T11:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。