論文の概要: WiSE-OD: Benchmarking Robustness in Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2507.18925v1
- Date: Fri, 25 Jul 2025 03:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.813095
- Title: WiSE-OD: Benchmarking Robustness in Infrared Object Detection
- Title(参考訳): WiSE-OD:赤外線物体検出におけるロバストネスのベンチマーク
- Authors: Heitor R. Medeiros, Atif Belal, Masih Aminbeidokhti, Eric Granger, Marco Pedersoli,
- Abstract要約: WiSE-ODは、RGBゼロショットとIRファインチューニングの重みを組み合わせたWiSE-OD$_ZS$と、ゼロショットとリニアプローブを混合したWiSE-OD$_LP$である。
標準のIRデータセットに汚職を適用することで構築された2つのモード間アウト・オブ・ディストリビューション・ベンチマークであるLLVIP-CとFLIR-Cを紹介する。
- 参考スコア(独自算出の注目度): 12.115815831689265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection (OD) in infrared (IR) imagery is critical for low-light and nighttime applications. However, the scarcity of large-scale IR datasets forces models to rely on weights pre-trained on RGB images. While fine-tuning on IR improves accuracy, it often compromises robustness under distribution shifts due to the inherent modality gap between RGB and IR. To address this, we introduce LLVIP-C and FLIR-C, two cross-modality out-of-distribution (OOD) benchmarks built by applying corruption to standard IR datasets. Additionally, to fully leverage the complementary knowledge from RGB and infrared trained models, we propose WiSE-OD, a weight-space ensembling method with two variants: WiSE-OD$_{ZS}$, which combines RGB zero-shot and IR fine-tuned weights, and WiSE-OD$_{LP}$, which blends zero-shot and linear probing. Evaluated across three RGB-pretrained detectors and two robust baselines, WiSE-OD improves both cross-modality and corruption robustness without any additional training or inference cost.
- Abstract(参考訳): 赤外線(IR)画像における物体検出(OD)は、低照度および夜間の用途において重要である。
しかし、大規模なIRデータセットの不足により、モデルはRGB画像に事前訓練された重みに頼らざるを得なくなった。
IRの微調整は精度を向上するが、RGBとIRの固有のモダリティギャップのため、分布シフトの下で頑健さを損なうことがしばしばある。
LLVIP-CとFLIR-Cは、標準のIRデータセットに汚職を適用した2つのOODベンチマークである。
さらに、RGBと赤外線訓練モデルの相補的知識をフル活用するために、RGBゼロショットとIR微調整重みを組み合わせた重量空間アンサンブル法WiSE-ODと、ゼロショットと線形プローブを混合したWiSE-OD$_{LP}$を提案する。
3つのRGB予めトレーニングされた検出器と2つの堅牢なベースラインで評価され、WiSE-ODは追加のトレーニングや推論コストを伴わずに、クロスモダリティと汚職の堅牢性の両方を改善している。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - The Solution for the GAIIC2024 RGB-TIR object detection Challenge [5.625794757504552]
RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
論文 参考訳(メタデータ) (2024-07-04T12:08:36Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB-Infrared Object Detection [18.27510863075184]
本稿では,モダリティの誤校正や不正確な問題に対処するため,$mathrmC2$Formerと呼ばれる新しい校正・補足変換器を提案する。
mathrmC2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
論文 参考訳(メタデータ) (2023-06-28T12:52:48Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。