論文の概要: F-ViTA: Foundation Model Guided Visible to Thermal Translation
- arxiv url: http://arxiv.org/abs/2504.02801v1
- Date: Thu, 03 Apr 2025 17:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:15.593369
- Title: F-ViTA: Foundation Model Guided Visible to Thermal Translation
- Title(参考訳): F-ViTA:熱翻訳に適応した基礎モデル
- Authors: Jay N. Paranjape, Celso de Melo, Vishal M. Patel,
- Abstract要約: そこで我々は,F-ViTAを提案する。F-ViTAは,基礎モデルに埋め込まれた一般世界の知識を利用して,翻訳改善のための拡散過程を導出する手法である。
本モデルでは, オフ・オブ・ディストリビューション(OOD)のシナリオを一般化し, 同じ可視像からLWIR, MWIR, 近赤外(NIR)の変換を生成する。
- 参考スコア(独自算出の注目度): 27.200043694866388
- License:
- Abstract: Thermal imaging is crucial for scene understanding, particularly in low-light and nighttime conditions. However, collecting large thermal datasets is costly and labor-intensive due to the specialized equipment required for infrared image capture. To address this challenge, researchers have explored visible-to-thermal image translation. Most existing methods rely on Generative Adversarial Networks (GANs) or Diffusion Models (DMs), treating the task as a style transfer problem. As a result, these approaches attempt to learn both the modality distribution shift and underlying physical principles from limited training data. In this paper, we propose F-ViTA, a novel approach that leverages the general world knowledge embedded in foundation models to guide the diffusion process for improved translation. Specifically, we condition an InstructPix2Pix Diffusion Model with zero-shot masks and labels from foundation models such as SAM and Grounded DINO. This allows the model to learn meaningful correlations between scene objects and their thermal signatures in infrared imagery. Extensive experiments on five public datasets demonstrate that F-ViTA outperforms state-of-the-art (SOTA) methods. Furthermore, our model generalizes well to out-of-distribution (OOD) scenarios and can generate Long-Wave Infrared (LWIR), Mid-Wave Infrared (MWIR), and Near-Infrared (NIR) translations from the same visible image. Code: https://github.com/JayParanjape/F-ViTA/tree/master.
- Abstract(参考訳): 熱画像は、特に低照度と夜間の状況において、シーン理解に不可欠である。
しかし、赤外線画像キャプチャに必要な特別な機器のため、大規模な熱データセットの収集は費用がかかり、労力がかかる。
この課題に対処するため、研究者らは可視から熱画像への変換を探索した。
既存の手法の多くはGAN(Generative Adversarial Networks)やDM(Diffusion Models)に依存しており、そのタスクをスタイル転送問題として扱う。
その結果、これらの手法は、限られたトレーニングデータからモダリティ分布シフトと基礎となる物理原理の両方を学習しようと試みた。
本稿では,F-ViTAを提案する。F-ViTAは,基礎モデルに埋め込まれた一般世界の知識を利用して,翻訳改善のための拡散過程を導出する手法である。
具体的には、SAM や Grounded DINO などの基礎モデルからゼロショットマスクとラベルを付した InstructPix2Pix Diffusion Model を設計する。
これにより、モデルがシーンオブジェクトとその熱的シグネチャ間の有意義な相関関係を赤外線画像で学習することが可能になる。
5つの公開データセットに対する大規模な実験は、F-ViTAが最先端(SOTA)メソッドより優れていることを示している。
さらに,本モデルでは,オフ・オブ・ディストリビューション(OOD)のシナリオを一般化し,LWIR(Long-Wave Infrared),MWIR(Mid-Wave Infrared),NIR(Near-IR)の翻訳を同じ可視画像から生成することができる。
コード:https://github.com/JayParanjape/F-ViTA/tree/master
関連論文リスト
- Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - Thermal3D-GS: Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis [11.793425521298488]
本稿では,熱3D-GSという物理誘導型3次元ガウススプラッティング法を提案する。
The first large-scale benchmark dataset for this field called Thermal Infrared Novel-view Synthesis dataset (TI-NSD)。
その結果,本手法はPSNRの3.03dB改善によりベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T13:46:53Z) - TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation [25.542902579879367]
本稿では,TC-DPM(Temporally Consistent Patch Diffusion Models)と呼ばれる新しい拡散法を提案する。
本手法は生成した可視画像の意味的構造を忠実に保存する。
TC-PDMは、赤外線可視ビデオ翻訳のFVDの35.3%、昼夜物体検出のAP50の6.1%で、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-26T12:43:48Z) - PID: Physics-Informed Diffusion Model for Infrared Image Generation [11.416759828137701]
赤外線イメージング技術は、低視認性条件下での信頼性の高いセンシング能力に大きな注目を集めている。
既存の画像翻訳法の多くは、赤外線画像は、基礎となる物理法則を無視して、スタイリスティックなバリエーションとして扱う。
物理法則に従う赤外線画像にRGB画像を変換するための物理情報拡散(PID)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:32:30Z) - IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection [55.554484379021524]
Infrared Small Target Detection (IRSTD) タスクは、自然画像と赤外線画像の間に顕著な領域ギャップがあるため、満足度の高い性能を達成するには不十分である。
IRSTDのためのIRSAMモデルを提案する。これはSAMのエンコーダデコーダアーキテクチャを改善し、赤外線小物体の特徴表現をより良く学習する。
論文 参考訳(メタデータ) (2024-07-10T10:17:57Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Taming Latent Diffusion Model for Neural Radiance Field Inpainting [63.297262813285265]
ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。
本研究では,シーンごとのカスタマイズによる拡散モデルの傾向の緩和と,マスキングトレーニングによるテクスチャシフトの緩和を提案する。
我々のフレームワークは、様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。
論文 参考訳(メタデータ) (2024-04-15T17:59:57Z) - InfMAE: A Foundation Model in the Infrared Modality [38.23685358198649]
本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。
また、赤外線画像に適した情報認識マスキング戦略を設計する。
論文 参考訳(メタデータ) (2024-02-01T08:02:10Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Exploring Thermal Images for Object Detection in Underexposure Regions
for Autonomous Driving [67.69430435482127]
アンダーエクスポージャー地域は、安全な自動運転のための周囲の完全な認識を構築するのに不可欠である。
サーマルカメラが利用可能になったことで、他の光学センサーが解釈可能な信号を捉えていない地域を探索するための重要な代替手段となった。
本研究は,可視光画像から熱画像へ学習を伝達するためのスタイル伝達手法を用いたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T09:59:09Z) - Bayesian Fusion for Infrared and Visible Images [26.64101343489016]
本稿では,赤外・可視画像のための新しいベイズ融合モデルを構築した。
我々は、融合画像が人間の視覚系を満たすようにすることを目指している。
従来の手法と比較して、新しいモデルは、高照度なターゲットとリッチテクスチャの詳細を持つより良い融合画像を生成することができる。
論文 参考訳(メタデータ) (2020-05-12T14:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。