論文の概要: Lightweight Facial Landmark Detection in Thermal Images via Multi-Level Cross-Modal Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2510.11128v1
- Date: Mon, 13 Oct 2025 08:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.261337
- Title: Lightweight Facial Landmark Detection in Thermal Images via Multi-Level Cross-Modal Knowledge Transfer
- Title(参考訳): マルチレベルクロスモーダル知識伝達による熱画像の軽量顔のランドマーク検出
- Authors: Qiyi Tong, Olivia Nocentini, Marta Lagomarsino, Kuanqi Cai, Marta Lorenzini, Arash Ajoudani,
- Abstract要約: 熱画像における顔のランドマーク検出は、難解な照明条件に適用するために重要である。
モデル圧縮から高忠実度RGB-熱的知識伝達を分離する新しいフレームワークを提案する。
実験により,本手法は,特に従来の手法よりも優れる公立熱FLDベンチマークに新たな最先端の手法を設定できることが確認された。
- 参考スコア(独自算出の注目度): 13.887803692033073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Landmark Detection (FLD) in thermal imagery is critical for applications in challenging lighting conditions, but it is hampered by the lack of rich visual cues. Conventional cross-modal solutions, like feature fusion or image translation from RGB data, are often computationally expensive or introduce structural artifacts, limiting their practical deployment. To address this, we propose Multi-Level Cross-Modal Knowledge Distillation (MLCM-KD), a novel framework that decouples high-fidelity RGB-to-thermal knowledge transfer from model compression to create both accurate and efficient thermal FLD models. A central challenge during knowledge transfer is the profound modality gap between RGB and thermal data, where traditional unidirectional distillation fails to enforce semantic consistency across disparate feature spaces. To overcome this, we introduce Dual-Injected Knowledge Distillation (DIKD), a bidirectional mechanism designed specifically for this task. DIKD establishes a connection between modalities: it not only guides the thermal student with rich RGB features but also validates the student's learned representations by feeding them back into the frozen teacher's prediction head. This closed-loop supervision forces the student to learn modality-invariant features that are semantically aligned with the teacher, ensuring a robust and profound knowledge transfer. Experiments show that our approach sets a new state-of-the-art on public thermal FLD benchmarks, notably outperforming previous methods while drastically reducing computational overhead.
- Abstract(参考訳): 熱画像における顔のランドマーク検出(FLD)は、照明条件の厳しい適用には不可欠であるが、リッチな視覚的手がかりの欠如によって妨げられている。
機能融合やRGBデータからのイメージ変換のような従来のクロスモーダルソリューションは、しばしば計算コストが高くなり、構造的アーティファクトを導入して、実際のデプロイメントを制限している。
モデル圧縮から高忠実度RGB-熱的知識伝達を分離し,高精度かつ効率的な熱FLDモデルを作成する新しいフレームワークであるMulti-Level Cross-Modal Knowledge Distillation (MLCM-KD)を提案する。
知識伝達における中心的な課題は、RGBと熱データの間の深いモダリティギャップであり、伝統的な一方向蒸留では異なる特徴空間間のセマンティック一貫性を強制できない。
これを解決するために,本課題に特化して設計された双方向機構であるDual-Injected Knowledge Distillation (DIKD)を導入する。
DIKDは、モダリティ間のつながりを確立している:それは、RGBの豊富な特徴を持つ熱的学生を導くだけでなく、凍結した教師の予測ヘッドにそれらをフィードバックすることで、生徒の学習した表現を検証する。
このクローズドループの監督は、生徒に教師と意味的に一致したモダリティ不変の特徴を学習させ、堅牢で深い知識伝達を確実にする。
実験により,本手法は,従来の計算オーバーヘッドを大幅に削減しつつ,従来の手法よりも優れていることを示す。
関連論文リスト
- Boosting Cross-spectral Unsupervised Domain Adaptation for Thermal Semantic Segmentation [2.034732821736745]
自動運転においては、熱画像セマンティックセグメンテーションが重要な研究領域として浮上している。
本稿では,熱画像セマンティックセグメンテーションのためのクロススペクトルUDAに関する包括的研究を行う。
本研究では,夜間シナリオにおけるサーマルセグメンテーションモデルの性能向上を目的として,新たな自己監督的損失を導入した。
論文 参考訳(メタデータ) (2025-05-11T11:45:44Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - Breaking Modality Gap in RGBT Tracking: Coupled Knowledge Distillation [21.161244379091833]
RGBと熱赤外(TIR)画像のモダリティギャップは重要な問題であるが、既存のRGBT追跡手法では見落とされがちである。
そこで本研究では,モダリティギャップを壊すために,異なるモダリティの共通スタイルを追求する,CKDと呼ばれる新しい知識蒸留フレームワークを提案する。
特に,2つの学生ネットワークを導入し,そのスタイル特性を一貫性のあるものにするために,スタイル蒸留損失を用いる。
論文 参考訳(メタデータ) (2024-10-15T13:22:58Z) - From Two-Stream to One-Stream: Efficient RGB-T Tracking via Mutual Prompt Learning and Knowledge Distillation [9.423279246172923]
視覚的プロンプト学習にインスパイアされた我々は,相互学習に基づく新しい2ストリームRGB-T追跡アーキテクチャを設計した。
設計した教師モデルが最も精度が高く,教師モデルに匹敵する精度の学生モデルは,教師モデルよりも3倍以上高速な推論速度を実現した。
論文 参考訳(メタデータ) (2024-03-25T14:57:29Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。