論文の概要: Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection
- arxiv url: http://arxiv.org/abs/2501.15099v1
- Date: Sat, 25 Jan 2025 06:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:23.778840
- Title: Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection
- Title(参考訳): RGBとIRを一緒にする:ロバスト伝送線路検出のための階層的マルチモーダル強化
- Authors: Shengdong Zhang, Xiaoqin Zhang, Wenqi Ren, Linlin Shen, Shaohua Wan, Jun Zhang, Yujing M Jiang,
- Abstract要約: 高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
- 参考スコア(独自算出の注目度): 67.02804741856512
- License:
- Abstract: Ensuring a stable power supply in rural areas relies heavily on effective inspection of power equipment, particularly transmission lines (TLs). However, detecting TLs from aerial imagery can be challenging when dealing with misalignments between visible light (RGB) and infrared (IR) images, as well as mismatched high- and low-level features in convolutional networks. To address these limitations, we propose a novel Hierarchical Multi-Modal Enhancement Network (HMMEN) that integrates RGB and IR data for robust and accurate TL detection. Our method introduces two key components: (1) a Mutual Multi-Modal Enhanced Block (MMEB), which fuses and enhances hierarchical RGB and IR feature maps in a coarse-to-fine manner, and (2) a Feature Alignment Block (FAB) that corrects misalignments between decoder outputs and IR feature maps by leveraging deformable convolutions. We employ MobileNet-based encoders for both RGB and IR inputs to accommodate edge-computing constraints and reduce computational overhead. Experimental results on diverse weather and lighting conditionsfog, night, snow, and daytimedemonstrate the superiority and robustness of our approach compared to state-of-the-art methods, resulting in fewer false positives, enhanced boundary delineation, and better overall detection performance. This framework thus shows promise for practical large-scale power line inspections with unmanned aerial vehicles.
- Abstract(参考訳): 農村部における安定した電力供給を確保するには、電力機器、特に送電線(TL)の効果的な検査に大きく依存する。
しかし,可視光 (RGB) と赤外線 (IR) 画像のミスアライメントや,畳み込みネットワークにおける高次・低次特徴のミスマッチに対処するには,空中画像からのTLの検出が困難である。
これらの制約に対処するために,RGBとIRデータを統合して,堅牢かつ正確なTL検出を行う階層型マルチモーダル拡張ネットワーク(HMMEN)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
我々は RGB と IR の入力に MobileNet ベースのエンコーダを使用し,エッジ計算の制約に適応し,計算オーバーヘッドを低減する。
気象, 照明条件の多様さ, 夜間, 積雪, 日中の実験結果から, 現状の手法と比較して, アプローチの優越性と堅牢性を実証し, 偽陽性が減少し, 境界線が増大し, 全体的な検出性能が向上した。
この枠組みは,無人航空機による大規模電力線検査の実現を約束するものである。
関連論文リスト
- Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Flare-Aware Cross-modal Enhancement Network for Multi-spectral Vehicle
Re-identification [29.48387524901101]
厳しい環境下では、RGBとNIRモダリティの非ネイティブな手がかりは、車両のランプや日光からの強いフレアによってしばしば失われる。
フレア崩壊したRGBとNIRの特徴をフレア免疫熱赤外スペクトルから誘導して適応的に復元するフレア・アウェア・クロスモーダル・エンハンスメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:04:24Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。