論文の概要: DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2503.19012v1
- Date: Mon, 24 Mar 2025 17:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:47.354472
- Title: DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding
- Title(参考訳): DiffV2IR:視覚言語理解による可視-赤外拡散モデル
- Authors: Lingyan Ran, Lidong Wang, Guangcong Wang, Peng Wang, Yanning Zhang,
- Abstract要約: DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
- 参考スコア(独自算出の注目度): 43.85632218045282
- License:
- Abstract: The task of translating visible-to-infrared images (V2IR) is inherently challenging due to three main obstacles: 1) achieving semantic-aware translation, 2) managing the diverse wavelength spectrum in infrared imagery, and 3) the scarcity of comprehensive infrared datasets. Current leading methods tend to treat V2IR as a conventional image-to-image synthesis challenge, often overlooking these specific issues. To address this, we introduce DiffV2IR, a novel framework for image translation comprising two key elements: a Progressive Learning Module (PLM) and a Vision-Language Understanding Module (VLUM). PLM features an adaptive diffusion model architecture that leverages multi-stage knowledge learning to infrared transition from full-range to target wavelength. To improve V2IR translation, VLUM incorporates unified Vision-Language Understanding. We also collected a large infrared dataset, IR-500K, which includes 500,000 infrared images compiled by various scenes and objects under various environmental conditions. Through the combination of PLM, VLUM, and the extensive IR-500K dataset, DiffV2IR markedly improves the performance of V2IR. Experiments validate DiffV2IR's excellence in producing high-quality translations, establishing its efficacy and broad applicability. The code, dataset, and DiffV2IR model will be available at https://github.com/LidongWang-26/DiffV2IR.
- Abstract(参考訳): 可視赤外画像(V2IR)の翻訳作業は,3つの障害により本質的に困難である。
1)意味認識翻訳の達成。
2)赤外画像における波長スペクトルの多様性の管理,及び
3)包括的赤外線データセットの不足。
現在の先導法は、V2IRを従来の画像と画像の合成課題として扱う傾向があり、しばしばこれらの特定の問題を見落としている。
DiffV2IRは、プログレッシブラーニングモジュール(PLM)とビジョンランゲージ理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。
PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。
V2IR翻訳を改善するために、VLUMは統合されたビジョン言語理解を取り入れている。
我々はまた、様々な環境条件下で様々なシーンや物体によって収集された50万枚の赤外線画像を含む、大きな赤外線データセットIR-500Kを収集した。
PLM、VLUM、IR-500Kデータセットの組み合わせにより、DiffV2IRはV2IRの性能を著しく向上させる。
実験では、DiffV2IRの高品質な翻訳における卓越性を検証し、その有効性と幅広い適用性を確立した。
コード、データセット、DiffV2IRモデルはhttps://github.com/LidongWang-26/DiffV2IRで利用できる。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks [47.08388430506686]
IV-tuning」は、パラメータ効率の良いPVMを赤外可視タスクに活用するための、新規で汎用的な微調整手法である。
IVチューニングは、トレーニング済みの可視性PVMを凍結し、赤外線フローをアダプタと対話するためのモーダルプロンプトに統合する。
約3%のバックボーンパラメータを微調整することで、IVチューニングは完全な微調整および従来の最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-21T14:54:41Z) - CapHDR2IR: Caption-Driven Transfer from Visible Light to Infrared Domain [7.007302908953179]
赤外線(IR)イメージングは、極端光条件下でコンテンツをキャプチャするユニークな能力のため、いくつかの分野で利点がある。
代替として、可視光は赤外線画像の合成に使用できるが、それによって画像の細部への忠実さが失われ、シーンの文脈的認識の欠如により不整合が生じる。
論文 参考訳(メタデータ) (2024-11-25T12:23:14Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation [0.536022165180739]
RGB入力から高画質近赤外(NIR)画像を生成する新しい画像画像変換フレームワークPix2Nextを提案する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
論文 参考訳(メタデータ) (2024-09-25T07:51:47Z) - Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model [0.6817102408452475]
コンピュータビジョンでは、可視光画像は低照度条件において低コントラストを示すことが多く、重要な課題である。
近年のディープラーニング,特にGAN(Generative Adversarial Networks)の展開は,可視光画像から赤外線画像への変換を促進している。
可視光画像から高忠実度赤外線画像へ効率よく変換するエンド・ツー・エンド・エンド・トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:02:26Z) - InfMAE: A Foundation Model in the Infrared Modality [38.23685358198649]
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。
また、赤外線画像に適した情報認識マスキング戦略を設計する。
論文 参考訳(メタデータ) (2024-02-01T08:02:10Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.156053075519207]
本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。
本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。
実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-02T14:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。