論文の概要: TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation
- arxiv url: http://arxiv.org/abs/2602.19430v2
- Date: Tue, 24 Feb 2026 03:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.483374
- Title: TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation
- Title(参考訳): TherA:制御可能なRGB-サーマル赤外変換のための熱認識型ビジュアルランゲージプロンプト
- Authors: Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang, Young-Sik Shin, Ukcheol Shin, Ayoung Kim,
- Abstract要約: TherAは制御可能なRGB-to-TIR翻訳フレームワークで、シーンレベルでもオブジェクトレベルでも多彩で熱可塑性の画像を生成する。
TherAは最先端の翻訳性能を実現し、ゼロショット翻訳性能が改善された。
- 参考スコア(独自算出の注目度): 12.591408054941027
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the inherent advantages of thermal infrared(TIR) imaging, large-scale data collection and annotation remain a major bottleneck for TIR-based perception. A practical alternative is to synthesize pseudo TIR data via image translation; however, most RGB-to-TIR approaches heavily rely on RGB-centric priors that overlook thermal physics, yielding implausible heat distributions. In this paper, we introduce TherA, a controllable RGB-to-TIR translation framework that produces diverse and thermally plausible images at both scene and object level. TherA couples TherA-VLM with a latent-diffusion-based translator. Given a single RGB image and a user-prompted condition pair, TherA-VLM yields a thermal-aware embedding that encodes scene, object, material, and heat-emission context reflecting the input scene-condition pair. Conditioning the diffusion model on this embedding enables realistic TIR synthesis and fine-grained control across time of day, weather, and object state. Compared to other baselines, TherA achieves state-of-the-art translation performance, demonstrating improved zero-shot translation performance up to 33% increase averaged across all metrics.
- Abstract(参考訳): 熱赤外(TIR)イメージングの固有の利点にもかかわらず、大規模なデータ収集とアノテーションは、TIRベースの認識において大きなボトルネックとなっている。
しかし、ほとんどのRGB-to-TIRアプローチは、熱物理学を見渡せるRGB中心の先行技術に大きく依存しており、不可解な熱分布をもたらす。
本稿では,シーンレベルでもオブジェクトレベルでも多彩で熱可塑性の画像を生成する,制御可能なRGB-to-TIR翻訳フレームワークであるTherAを紹介する。
TherAは、潜伏拡散に基づくトランスレータとTherA-VLMを結合する。
1つのRGBイメージとユーザプロンプトされた条件ペアが与えられた後、TherA-VLMは、入力されたシーン条件ペアを反映したシーン、オブジェクト、マテリアル、熱放出コンテキストを符号化する熱認識埋め込みを生成する。
この埋め込みに拡散モデルを条件付けすることで、現実的なTIR合成と、日時、天気、物体状態のきめ細かい制御が可能になる。
他のベースラインと比較して、TherAは最先端の翻訳性能を達成し、ゼロショット翻訳性能が改善された。
関連論文リスト
- RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching [55.03149221192589]
本稿では,RGBとRAW表現のギャップを埋めるためにRAW-Flowという新しいフレームワークを提案する。
また、階層的なRGB機能をフロー推定プロセスに注入する、大規模コンテキストガイダンスモジュールも導入する。
RAW-Flowは、定量的にも視覚的にも最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2026-01-28T08:27:38Z) - ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation [14.108149959967095]
ペアリングRGBサーマルデータは、視覚-サーマル・フュージョンとクロスモダリティ・タスクに不可欠である。
この課題を克服するため、RGB-to-Thermal (RGB-T)イメージ翻訳が有望なソリューションとして登場した。
本研究では,RGB-T画像変換のための適応型フローベース生成モデルであるHeatherGenを提案する。
論文 参考訳(メタデータ) (2025-09-29T14:55:51Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Visible to Thermal image Translation for improving visual task in low
light conditions [0.0]
Parrot Anafi Thermalのドローンを使って、2つの場所から画像を収集した。
我々は2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練した。
その結果, RGB トレーニングデータを GAN を用いて熱データに変換することが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:18:53Z) - HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information [12.376615603048279]
HalluciDetは、オブジェクト検出のためのIR-RGB画像変換モデルである。
我々は、画像翻訳とIRの微調整のための最先端手法に対する我々のアプローチを実証的に比較した。
論文 参考訳(メタデータ) (2023-10-07T03:00:33Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。