論文の概要: Adding Thermal Awareness to Visual Systems in Real-Time via Distilled Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.06010v1
- Date: Thu, 07 May 2026 11:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.712358
- Title: Adding Thermal Awareness to Visual Systems in Real-Time via Distilled Diffusion Models
- Title(参考訳): 蒸留拡散モデルによる視覚系への熱的認識のリアルタイム化
- Authors: Yuchen Guo, Junli Gong, Wenjun Dong, Yiuming Cheung, Weifeng Su,
- Abstract要約: 純粋なRGBベースの視覚モデルは、夜間や霧のような困難なシナリオにおいて、信頼できる手がかりを提供することができないことが多い。
拡散レベルの品質を持つ完全独立なプラグアンドプレイコンポーネントとして設計されたリアルタイム画像融合モジュールであるFusionproxyを提案する。
本手法は静的認識タスクにおいて優れた性能を実現し,閉ループ自律運転を含む動的タスクの堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.056469832242094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purely RGB-based vision models often fail to provide reliable cues in challenging scenarios such as nighttime and fog, leading to degraded performance and safety risks. Infrared imaging captures heat-emitting sources and provides critical complementary information, but existing high-fidelity fusion methods suffer from prohibitive latency, rendering them impractical for real-time edge deployment. To address this, we propose FusionProxy, a real-time image fusion module designed as a fully independent, plug-and-play component with diffusion level quality. FusionProxy exploits two complementary statistics of a teacher sample ensemble: per-pixel variance in raw image space, used to weight pixel-level supervision, and per-pixel variance inside frozen foundation backbones, used to route feature-level alignment spatially. Once trained, FusionProxy can be directly integrated into any visual perception system without joint optimization. Extensive experiments demonstrate that our method achieves superior performance on static recognition tasks and significantly enhances robustness in dynamic tasks, including closed-loop autonomous driving. Crucially, FusionProxy achieves real-time inference speeds on diverse platforms, from high-end GPUs to commodity hardware, providing a flexible and generalizable solution for all-day perception.
- Abstract(参考訳): 純粋なRGBベースのビジョンモデルは、夜間や霧のような困難なシナリオにおいて、信頼性の高い手がかりを提供することができず、性能の低下と安全性のリスクをもたらす。
赤外線イメージングは、熱放射源を捕捉し、重要な補完情報を提供するが、既存の高忠実度融合法は禁止的な遅延に悩まされ、リアルタイムのエッジ展開には実用的ではない。
これを解決するためにFusionProxyを提案する。FusionProxyは、完全に独立したプラグイン・アンド・プレイコンポーネントとして設計され、拡散レベルの品質を持つリアルタイム画像融合モジュールである。
FusionProxyは教師のサンプルアンサンブルの相補的な統計を2つ利用している: 原画像空間におけるピクセルごとのばらつき(ピクセル単位の監督の重み付けに使用される)と、特徴レベルのアライメントを空間的にルーティングするために使用されるフリーズファンデーションバックボーン内のピクセルごとのばらつき(英語版)である。
トレーニングが完了すると、FusionProxyは共同最適化なしで、どんな視覚認識システムにも直接統合できる。
大規模実験により,本手法は静的認識タスクにおいて優れた性能を示し,閉ループ自律運転を含む動的タスクの堅牢性を大幅に向上することが示された。
重要なのは、FusionProxyはハイエンドGPUからコモディティハードウェアに至るまで、さまざまなプラットフォーム上でリアルタイムの推論速度を実現し、オールデイ知覚のための柔軟性と一般化可能なソリューションを提供する。
関連論文リスト
- EAPFusion: Intrinsic Evolving Auxiliary Prior Guidance for Infrared and Visible Image Fusion [15.580984590527343]
赤外線可視画像融合は、赤外線センシングによる相補的な熱塩分と、可視画像からの微細なテクスチャを統合することで、情報に富んだ融合画像を作成することを目的としている。
既存の融合法の多くは、推論時にシーン固有のコンテンツに適応できない静的なトレーニングされた重みに依存している。
本研究では,外部補助モデルに頼らず,自己進化型固有の先行モデルを用いて,これらの問題に対処するEAPFusionを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:56:00Z) - CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2026-01-12T13:36:48Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [10.99351334478114]
DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
論文 参考訳(メタデータ) (2024-09-16T08:37:09Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。