Fugu-MT 論文翻訳(概要): ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

論文の概要: ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

arxiv url: http://arxiv.org/abs/2509.24878v1
Date: Mon, 29 Sep 2025 14:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:20.06518
Title: ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
Title（参考訳）: ThermalGen: RGB-熱画像変換のためのスタイルディスタングルフローベース生成モデル
Authors: Jiuhong Xiao, Roshan Nayak, Ning Zhang, Daniel Tortei, Giuseppe Loianno,
Abstract要約: ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
参考スコア（独自算出の注目度）: 14.108149959967095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Paired RGB-thermal data is crucial for visual-thermal sensor fusion and cross-modality tasks, including important applications such as multi-modal image alignment and retrieval. However, the scarcity of synchronized and calibrated RGB-thermal image pairs presents a major obstacle to progress in these areas. To overcome this challenge, RGB-to-Thermal (RGB-T) image translation has emerged as a promising solution, enabling the synthesis of thermal images from abundant RGB datasets for training purposes. In this study, we propose ThermalGen, an adaptive flow-based generative model for RGB-T image translation, incorporating an RGB image conditioning architecture and a style-disentangled mechanism. To support large-scale training, we curated eight public satellite-aerial, aerial, and ground RGB-T paired datasets, and introduced three new large-scale satellite-aerial RGB-T datasets--DJI-day, Bosonplus-day, and Bosonplus-night--captured across diverse times, sensor types, and geographic regions. Extensive evaluations across multiple RGB-T benchmarks demonstrate that ThermalGen achieves comparable or superior translation performance compared to existing GAN-based and diffusion-based methods. To our knowledge, ThermalGen is the first RGB-T image translation model capable of synthesizing thermal images that reflect significant variations in viewpoints, sensor characteristics, and environmental conditions. Project page: http://xjh19971.github.io/ThermalGen
Abstract（参考訳）: ペアリングRGB-熱的データは、マルチモーダル画像アライメントや検索などの重要な応用を含む、視覚-熱的センサー融合および相互モダリティタスクに不可欠である。しかし, 同期・校正されたRGB-熱画像ペアの不足は, これらの領域において大きな障害となる。この課題を克服するために、RGB-to-Thermal (RGB-T)イメージ翻訳は、トレーニング目的で豊富なRGBデータセットから熱画像の合成を可能にする、有望なソリューションとして登場した。本研究では,RGB-T画像翻訳のための適応型フローベース生成モデルであるHeatherGenを提案する。大規模トレーニングを支援するため、我々は8つの公開衛星航空・航空・地上RGB-Tペアデータセットをキュレートし、3つの大規模衛星航空RGB-Tデータセット(DJI-day、Bosonplus-day、Bosonplus-night--)を導入しました。複数のRGB-Tベンチマークの大規模な評価は、既存のGANベースおよび拡散ベース手法と比較して、HeatherGenが同等または優れた翻訳性能を達成していることを示している。われわれの知る限り、HeatherGenは視点、センサ特性、環境条件のかなりの変化を反映した熱画像の合成が可能な最初のRGB-T画像翻訳モデルである。プロジェクトページ: http://xjh19971.github.io/ThermalGen

関連論文リスト

KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文参考訳（メタデータ） (2025-04-08T10:07:02Z)
Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文参考訳（メタデータ） (2025-04-08T09:14:24Z)
LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文参考訳（メタデータ） (2024-11-12T12:23:19Z)
RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。 RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文参考訳（メタデータ） (2024-04-05T08:52:32Z)
Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文参考訳（メタデータ） (2023-06-17T14:28:08Z)
Hyperspectral Image Super Resolution with Real Unaligned RGB Guidance [11.711656319221072]
異種特徴抽出,多段階特徴アライメント,注意的特徴融合を含むHSI融合ネットワークを提案する。本手法は, 既存の単一画像と核融合による超解像法に対して, 定量的評価と視覚的比較において明らかに改善されている。
論文参考訳（メタデータ） (2023-02-13T11:56:45Z)
Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文参考訳（メタデータ） (2022-10-09T13:50:12Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文参考訳（メタデータ） (2020-08-07T10:13:05Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文参考訳（メタデータ） (2020-07-03T14:24:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。