論文の概要: Inference-Time Scaling of Diffusion Models for Infrared Data Generation
- arxiv url: http://arxiv.org/abs/2511.07362v1
- Date: Mon, 10 Nov 2025 18:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.404684
- Title: Inference-Time Scaling of Diffusion Models for Infrared Data Generation
- Title(参考訳): 赤外線データ生成のための拡散モデルの推測時間スケーリング
- Authors: Kai A. Horstmann, Maxim Clouser, Kia Khezeli,
- Abstract要約: 赤外線アプリケーションのための視覚モデルの開発は、赤外線アノテーションの専門知識によって妨げられている。
領域適応CLIPベースの検証器を用いて、赤外画像生成品質を向上させる推論時間スケーリング手法を提案する。
KAIST Multispectral Pedestrian Detection Benchmark データセットの FID スコアを10%削減した。
- 参考スコア(独自算出の注目度): 1.452875650827562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infrared imagery enables temperature-based scene understanding using passive sensors, particularly under conditions of low visibility where traditional RGB imaging fails. Yet, developing downstream vision models for infrared applications is hindered by the scarcity of high-quality annotated data, due to the specialized expertise required for infrared annotation. While synthetic infrared image generation has the potential to accelerate model development by providing large-scale, diverse training data, training foundation-level generative diffusion models in the infrared domain has remained elusive due to limited datasets. In light of such data constraints, we explore an inference-time scaling approach using a domain-adapted CLIP-based verifier for enhanced infrared image generation quality. We adapt FLUX.1-dev, a state-of-the-art text-to-image diffusion model, to the infrared domain by finetuning it on a small sample of infrared images using parameter-efficient techniques. The trained verifier is then employed during inference to guide the diffusion sampling process toward higher quality infrared generations that better align with input text prompts. Empirically, we find that our approach leads to consistent improvements in generation quality, reducing FID scores on the KAIST Multispectral Pedestrian Detection Benchmark dataset by 10% compared to unguided baseline samples. Our results suggest that inference-time guidance offers a promising direction for bridging the domain gap in low-data infrared settings.
- Abstract(参考訳): 赤外線画像は、受動的センサーを用いて、特に従来のRGBイメージングが失敗する低視認性条件下で、温度ベースのシーン理解を可能にする。
しかし、赤外線アプリケーションのための下流視覚モデルの開発は、赤外線アノテーションに必要な専門知識のため、高品質な注釈付きデータの不足によって妨げられている。
合成赤外線画像生成は、大規模で多様なトレーニングデータを提供することで、モデル開発を加速する可能性があるが、赤外線領域における基礎レベル生成拡散モデルの訓練は、限られたデータセットのため、まだ解明されていない。
このようなデータ制約を考慮して、領域適応CLIPベースの検証器を用いて、赤外画像生成品質を向上させる推論時間スケーリング手法を探索する。
我々は、パラメータ効率のよい手法を用いて、赤外線画像の小さなサンプルにそれを微調整することで、最先端のテキスト画像拡散モデルFLUX.1-devを赤外線領域に適用する。
次に、トレーニングされた検証器を推論中に使用し、拡散サンプリングプロセスを入力テキストプロンプトとよりよく整合する高品質な赤外線世代へ誘導する。
実験により,本手法により生成品質が一貫した改善が得られ,KAIST Multispectral Pedestrian Detection Benchmark データセットの FID スコアが無誘導ベースラインサンプルと比較して10%削減されることがわかった。
この結果から,推測時ガイダンスは,低データ赤外設定における領域ギャップを埋める上で有望な方向を示すことが示唆された。
関連論文リスト
- Enhancing Infrared Vision: Progressive Prompt Fusion Network and Benchmark [58.61079960074608]
既存の赤外線画像強調法は、個々の劣化に対処することに焦点を当てている。
一般的にRGBセンサーに適用されるオールインワンエンハンスメント法は、有効性が制限されることが多い。
論文 参考訳(メタデータ) (2025-10-10T12:55:54Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution [32.53713932204663]
DifIISRは、視覚品質と知覚性能に最適化された赤外線画像超解像拡散モデルである。
我々は、視力を維持するために赤外線熱スペクトル分布制御を導入する。
下流の視覚課題に対する知覚的ガイダンスとして,様々な視覚基盤モデルを組み込んだ。
論文 参考訳(メタデータ) (2025-03-03T05:20:57Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - PID: Physics-Informed Diffusion Model for Infrared Image Generation [11.416759828137701]
赤外線イメージング技術は、低視認性条件下での信頼性の高いセンシング能力に大きな注目を集めている。
既存の画像翻訳法の多くは、赤外線画像は、基礎となる物理法則を無視して、スタイリスティックなバリエーションとして扱う。
物理法則に従う赤外線画像にRGB画像を変換するための物理情報拡散(PID)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:32:30Z) - Thermal-NeRF: Neural Radiance Fields from an Infrared Camera [29.58060552299745]
本研究では,IR画像のみからNeRFの形でボリュームシーン表現を推定する最初の方法であるTherial-NeRFを紹介する。
本研究では,既存の方法よりも優れた品質が得られることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-15T14:27:15Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image
Fusion with Diffusion Models [54.952979335638204]
本稿では,Dif-Fusionと呼ばれる拡散モデルを用いて,マルチチャネル入力データの分布を生成する手法を提案する。
我々の手法は、特にカラー忠実度において、他の最先端画像融合法よりも効果的である。
論文 参考訳(メタデータ) (2023-01-19T13:37:19Z) - Thermal Image Super-Resolution Using Second-Order Channel Attention with
Varying Receptive Fields [4.991042925292453]
熱画像の効率よく再構成するシステムを提案する。
熱画像の復元は、安全、捜索、救助、軍事活動を含む用途に不可欠である。
論文 参考訳(メタデータ) (2021-07-30T22:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。