論文の概要: Contrast-Guided Cross-Modal Distillation for Thermal Object Detection
- arxiv url: http://arxiv.org/abs/2511.01435v1
- Date: Mon, 03 Nov 2025 10:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.224132
- Title: Contrast-Guided Cross-Modal Distillation for Thermal Object Detection
- Title(参考訳): 熱物体検出のためのコントラスト誘導クロスモーダル蒸留
- Authors: SiWoo Kim, JhongHyun An,
- Abstract要約: 低いコントラストと弱い高周波キューは重複し、重複し、重複し、小さなオブジェクトを見逃し、クラスを混乱させる。
同じクラスの機能をまとめることで、インスタンスレベルの決定境界を鋭くする、トレーニングのみの目標を導入します。
実験では,提案手法は先行手法より優れ,最先端性能を実現した。
- 参考スコア(独自算出の注目度): 1.8477401359673709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust perception at night remains challenging for thermal-infrared detection: low contrast and weak high-frequency cues lead to duplicate, overlapping boxes, missed small objects, and class confusion. Prior remedies either translate TIR to RGB and hope pixel fidelity transfers to detection -- making performance fragile to color or structure artifacts -- or fuse RGB and TIR at test time, which requires extra sensors, precise calibration, and higher runtime cost. Both lines can help in favorable conditions, but do not directly shape the thermal representation used by the detector. We keep mono-modality inference and tackle the root causes during training. Specifically, we introduce training-only objectives that sharpen instance-level decision boundaries by pulling together features of the same class and pushing apart those of different classes -- suppressing duplicate and confusing detections -- and that inject cross-modal semantic priors by aligning the student's multi-level pyramid features with an RGB-trained teacher, thereby strengthening texture-poor thermal features without visible input at test time. In experiments, our method outperformed prior approaches and achieved state-of-the-art performance.
- Abstract(参考訳): 夜間のロバストな知覚は、低コントラストと弱い高周波の手がかりによって重複、重なり合う箱、小さな物体の欠如、階級混乱など、熱赤外検出には依然として困難である。
以前の治療法では、TIRをRGBに変換し、ピクセルの忠実度を検出(色や構造のアーティファクトにパフォーマンスを脆弱にする)にしたい、あるいはテスト時にRGBとTIRを融合させる、というものだった。
両方の線は良好な条件を満たすことができるが、検出器が使用する熱表現を直接形成しない。
モノモダリティ推論を保ち、トレーニング中に根本原因に取り組む。
具体的には、同一クラスの特徴をまとめて異なるクラスの特徴を分解し、重複や紛らわしい検出を抑えることで、インスタンスレベルの決定境界を鋭くし、学生のマルチレベルピラミッド機能をRGB学習教師と整列させることにより、相互に意味的事前を注入し、テスト時に目に見える入力をせずにテクスチャと熱的特徴を強化することによる、トレーニングのみの目標を導入する。
実験では,提案手法は先行手法より優れ,最先端性能を実現した。
関連論文リスト
- Lightweight Facial Landmark Detection in Thermal Images via Multi-Level Cross-Modal Knowledge Transfer [13.887803692033073]
熱画像における顔のランドマーク検出は、難解な照明条件に適用するために重要である。
モデル圧縮から高忠実度RGB-熱的知識伝達を分離する新しいフレームワークを提案する。
実験により,本手法は,特に従来の手法よりも優れる公立熱FLDベンチマークに新たな最先端の手法を設定できることが確認された。
論文 参考訳(メタデータ) (2025-10-13T08:19:56Z) - Detection-Friendly Nonuniformity Correction: A Union Framework for Infrared UAVTarget Detection [18.776245480405958]
熱検出器を用いて撮影した赤外線無人航空機(UAV)画像は、しばしば温度依存性の低周波不均一性によって影響を受ける。
赤外線とUAVの両方の目標検出タスクに同時に対応できる検出フレンドリーな統合フレームワークを提案する。
検出誘導型自己監督損失を導入し,2つのタスク間の特徴的不一致を低減し,不均一なレベルが変化するように検出の堅牢性を向上する。
論文 参考訳(メタデータ) (2025-04-05T01:29:22Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Long-Tailed 3D Detection via Multi-Modal Fusion [58.89765900064689]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。
単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。
我々のMMLFはLT3Dの先行作業よりも優れており、特に12.8から20.0mAPまでの6つのレアなクラスで改善されています。
論文 参考訳(メタデータ) (2023-12-18T07:14:25Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - Learning Enriched Illuminants for Cross and Single Sensor Color
Constancy [182.4997117953705]
ネットワークをトレーニングするためのクロスセンサ自己教師型トレーニングを提案する。
センサに依存しない方法で人工発光体をランダムにサンプリングすることでネットワークを訓練する。
実験により、我々のクロスセンサモデルとシングルセンサーモデルは、他の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T15:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。