論文の概要: Wavelet-guided Misalignment-aware Network for Visible-Infrared Object Detection
- arxiv url: http://arxiv.org/abs/2507.20146v1
- Date: Sun, 27 Jul 2025 06:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.074525
- Title: Wavelet-guided Misalignment-aware Network for Visible-Infrared Object Detection
- Title(参考訳): 可視赤外物体検出のためのウェーブレット誘導型ミスアライメント・アウェアネットワーク
- Authors: Haote Zhang, Lipeng Gu, Wuzhou Quan, Fu Lee Wang, Honghui Fan, Jiali Tang, Dingkun Zhu, Haoran Xie, Xiaoping Zhang, Mingqiang Wei,
- Abstract要約: 本稿では,ウェーブレット誘導型ミスアライメント・アウェアネットワーク(WMNet)を提案し,異なるモード間ミスアライメントパターンに適応的に対処する。
低周波情報と高周波情報を併用することにより、WMNetはノイズ、照明のばらつき、空間的ミスアライメントの悪影響を軽減する。
刺激的または誤解を招く情報を抑えつつ、健全な目標特徴の表現を高め、より正確でロバストな検出を促進する。
- 参考スコア(独自算出の注目度): 21.634585158312763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared object detection aims to enhance the detection robustness by exploiting the complementary information of visible and infrared image pairs. However, its performance is often limited by frequent misalignments caused by resolution disparities, spatial displacements, and modality inconsistencies. To address this issue, we propose the Wavelet-guided Misalignment-aware Network (WMNet), a unified framework designed to adaptively address different cross-modal misalignment patterns. WMNet incorporates wavelet-based multi-frequency analysis and modality-aware fusion mechanisms to improve the alignment and integration of cross-modal features. By jointly exploiting low and high-frequency information and introducing adaptive guidance across modalities, WMNet alleviates the adverse effects of noise, illumination variation, and spatial misalignment. Furthermore, it enhances the representation of salient target features while suppressing spurious or misleading information, thereby promoting more accurate and robust detection. Extensive evaluations on the DVTOD, DroneVehicle, and M3FD datasets demonstrate that WMNet achieves state-of-the-art performance on misaligned cross-modal object detection tasks, confirming its effectiveness and practical applicability.
- Abstract(参考訳): 可視・近赤外物体検出は、可視・近赤外画像対の相補的情報を活用することにより、検出の堅牢性を高めることを目的としている。
しかし、その性能は、解像度の相違、空間変位、モダリティの不整合による頻繁な不整合によって制限されることが多い。
この問題を解決するために,Wavelet-guided Misalignment-aware Network (WMNet)を提案する。
WMNetはウェーブレットに基づく多周波解析とモダリティを考慮した融合機構を導入し、クロスモーダル特徴のアライメントと統合を改善する。
WMNetは、低周波情報と高周波情報を共同利用し、モダリティをまたいだ適応誘導を導入することにより、ノイズ、照明変動、空間的不整合の悪影響を軽減する。
さらに、刺激的又は誤解を招く情報を抑えつつ、健全な目標特徴の表現を高め、より正確でロバストな検出を促進する。
DVTOD、DroneVehicle、M3FDデータセットの大規模な評価は、WMNetが不正に整合したクロスモーダルオブジェクト検出タスクで最先端のパフォーマンスを達成し、その有効性と実用性を確認していることを示している。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - ARFC-WAHNet: Adaptive Receptive Field Convolution and Wavelet-Attentive Hierarchical Network for Infrared Small Target Detection [2.643590634429843]
ARFC-WAHNetは、赤外線小ターゲット検出のための適応型受容野畳み込みおよびウェーブレット減衰階層ネットワークである。
ARFC-WAHNetは、検出精度とロバスト性の両方において、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-15T09:44:23Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.1759252234439348]
本稿では,3つのキーコンポーネントを統合したMSCA-Netというネットワークアーキテクチャを提案する。
MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。
PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。
CABは、それらに重みを割り当て、低レベル情報と高レベル情報を統合することで、重要な特徴の表現を強化する。
論文 参考訳(メタデータ) (2025-03-21T14:42:31Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Evaluating ML Robustness in GNSS Interference Classification, Characterization & Localization [42.14439854721613]
ジャミング装置はグローバルナビゲーション衛星システム(GNSS)からの信号を妨害する
本稿では、低周波アンテナから得られたスナップショットからなる広範囲なデータセットを提案する。
本研究の目的は,機械学習モデル(ML)の環境変化に対するレジリエンスを評価することである。
論文 参考訳(メタデータ) (2024-09-23T15:20:33Z) - DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [42.70285733630796]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴の融合は困難であり、現在の手法では相補的条件下での両モードの物体の正確な検出はできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。