論文の概要: TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation
- arxiv url: http://arxiv.org/abs/2408.14227v1
- Date: Mon, 26 Aug 2024 12:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:01:29.233234
- Title: TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation
- Title(参考訳): TC-PDM:赤外線可視映像翻訳のための時間一貫性パッチ拡散モデル
- Authors: Anh-Dzung Doan, Vu Minh Hieu Phan, Surabhi Gupta, Markus Wagner, Tat-Jun Chin, Ian Reid,
- Abstract要約: 本稿では,TC-DPM(Temporally Consistent Patch Diffusion Models)と呼ばれる新しい拡散法を提案する。
本手法は生成した可視画像の意味的構造を忠実に保存する。
TC-PDMは、赤外線可視ビデオ翻訳のFVDの35.3%、昼夜物体検出のAP50の6.1%で、最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 25.542902579879367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared imaging offers resilience against changing lighting conditions by capturing object temperatures. Yet, in few scenarios, its lack of visual details compared to daytime visible images, poses a significant challenge for human and machine interpretation. This paper proposes a novel diffusion method, dubbed Temporally Consistent Patch Diffusion Models (TC-DPM), for infrared-to-visible video translation. Our method, extending the Patch Diffusion Model, consists of two key components. Firstly, we propose a semantic-guided denoising, leveraging the strong representations of foundational models. As such, our method faithfully preserves the semantic structure of generated visible images. Secondly, we propose a novel temporal blending module to guide the denoising trajectory, ensuring the temporal consistency between consecutive frames. Experiment shows that TC-PDM outperforms state-of-the-art methods by 35.3% in FVD for infrared-to-visible video translation and by 6.1% in AP50 for day-to-night object detection. Our code is publicly available at https://github.com/dzungdoan6/tc-pdm
- Abstract(参考訳): 赤外線イメージングは、物体の温度を計測することで、照明条件の変化に対してレジリエンスを提供する。
しかし、一部のシナリオでは、昼間の可視画像と比較して視覚的な詳細が欠如しているため、人間と機械の解釈には大きな課題が生じる。
本稿では,近赤外可視映像翻訳のための新しい拡散法であるTemporally Consistent Patch Diffusion Models (TC-DPM)を提案する。
Patch Diffusion Modelを拡張する手法は2つのキーコンポーネントから構成される。
まず,基礎モデルの強い表現を活かした意味誘導型認知モデルを提案する。
そこで本手法は,生成した可視画像の意味的構造を忠実に保存する。
次に,連続するフレーム間の時間的整合性を確保するため,聴覚軌道を案内する新しい時間的ブレンディングモジュールを提案する。
TC-PDMは、赤外線可視ビデオ翻訳のFVDの35.3%、昼夜物体検出のAP50の6.1%で、最先端の手法よりも優れていた。
私たちのコードはhttps://github.com/dzungdoan6/tc-pdmで公開されています。
関連論文リスト
- FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation [55.424665700339695]
拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。
拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。
本稿では,FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation) を提案する。
論文 参考訳(メタデータ) (2024-12-22T08:19:22Z) - Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - PID: Physics-Informed Diffusion Model for Infrared Image Generation [11.416759828137701]
赤外線イメージング技術は、低視認性条件下での信頼性の高いセンシング能力に大きな注目を集めている。
既存の画像翻訳法の多くは、赤外線画像は、基礎となる物理法則を無視して、スタイリスティックなバリエーションとして扱う。
物理法則に従う赤外線画像にRGB画像を変換するための物理情報拡散(PID)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:32:30Z) - Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。
提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。
画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T23:38:12Z) - One-Step Image Translation with Text-to-Image Models [35.0987002313882]
本稿では,新たな課題や領域に一段階拡散モデルを適用するための汎用的手法を提案する。
我々は,バニラ潜在拡散モデルの様々なモジュールを,小さなトレーニング可能な重みを持つ単一エンドツーエンドのジェネレータネットワークに統合する。
我々のモデルであるCycleGAN-Turboは、様々なシーン翻訳タスクにおいて、既存のGANベースおよび拡散ベースの手法より優れています。
論文 参考訳(メタデータ) (2024-03-18T17:59:40Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - T2V-DDPM: Thermal to Visible Face Translation using Denoising Diffusion
Probabilistic Models [71.94264837503135]
本稿では,熱可視(T2V)画像翻訳のための解法として,DDPM(Denoising Diffusion Probabilistic Model)を提案する。
トレーニング中、モデルは、対応する熱画像から可視像の条件分布を学習する。
複数のデータセットで最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-09-19T07:59:32Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。