論文の概要: MSCrackMamba: Leveraging Vision Mamba for Crack Detection in Fused Multispectral Imagery
- arxiv url: http://arxiv.org/abs/2412.06211v1
- Date: Mon, 09 Dec 2024 05:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:39.380359
- Title: MSCrackMamba: Leveraging Vision Mamba for Crack Detection in Fused Multispectral Imagery
- Title(参考訳): MSCrackMamba:融合マルチスペクトル画像における亀裂検出のための視覚マンバの活用
- Authors: Qinfeng Zhu, Yuan Fang, Lei Fan,
- Abstract要約: この研究では、Vision Mambaと超高解像度ネットワークを活用して、ひび割れ検出問題に対処するMSCrackMambaを紹介した。
この研究は、最近提案されたMambaニューラルアーキテクチャに触発され、MSCrackMambaと呼ばれる2段階のパラダイムを導入している。
提案手法は大規模き裂検出データセットCrack900で検証され,mIoUの3.55%向上を示した。
- 参考スコア(独自算出の注目度): 6.352063832888597
- License:
- Abstract: Crack detection is a critical task in structural health monitoring, aimed at assessing the structural integrity of bridges, buildings, and roads to prevent potential failures. Vision-based crack detection has become the mainstream approach due to its ease of implementation and effectiveness. Fusing infrared (IR) channels with red, green and blue (RGB) channels can enhance feature representation and thus improve crack detection. However, IR and RGB channels often differ in resolution. To align them, higher-resolution RGB images typically need to be downsampled to match the IR image resolution, which leads to the loss of fine details. Moreover, crack detection performance is restricted by the limited receptive fields and high computational complexity of traditional image segmentation networks. Inspired by the recently proposed Mamba neural architecture, this study introduces a two-stage paradigm called MSCrackMamba, which leverages Vision Mamba along with a super-resolution network to address these challenges. Specifically, to align IR and RGB channels, we first apply super-resolution to IR channels to match the resolution of RGB channels for data fusion. Vision Mamba is then adopted as the backbone network, while UperNet is employed as the decoder for crack detection. Our approach is validated on the large-scale Crack Detection dataset Crack900, demonstrating an improvement of 3.55% in mIoU compared to the best-performing baseline methods.
- Abstract(参考訳): き裂検出は構造的健康モニタリングにおいて重要な課題であり、橋、建物、道路の構造的整合性を評価し、潜在的な故障を防ぐことを目的としている。
視覚に基づくき裂検出は、実装の容易さと有効性から主流のアプローチとなっている。
赤外線(IR)チャネルと赤、緑、青(RGB)チャネルを融合することで、特徴表現が向上し、ひび割れ検出が改善される。
しかし、IRとRGBのチャンネルは解像度が異なることが多い。
それらを調整するためには、高解像度のRGBイメージを赤外線画像解像度に合わせてダウンサンプリングする必要があるため、細部が失われる。
さらに, ひび割れ検出性能は, 従来の画像セグメンテーションネットワークにおいて, 制限された受容場と高い計算複雑性によって制限される。
この研究は、最近提案されたMambaニューラルアーキテクチャにインスパイアされたもので、Vision Mambaと超高解像度ネットワークを活用してこれらの課題に対処するMSCrackMambaと呼ばれる2段階のパラダイムを導入している。
具体的には、IRチャネルとRGBチャネルを合わせるために、まず、データ融合のためのRGBチャネルの解像度に合わせるために、IRチャネルに超解像を適用する。
その後Vision Mambaがバックボーンネットワークとして採用され、UperNetが解読のためのデコーダとして使用されている。
提案手法は大規模き裂検出データセットCrack900で検証され,mIoUの3.55%向上を示した。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement [71.13353154514418]
低照度画像の強化、特に生ドメインからsRGBドメインへのマッピングのようなクロスドメインタスクは、依然として大きな課題である。
RAWMambaと呼ばれる新しいMambaスキャニング機構を提案する。
また,Retinex の先行したRetinex Decomposition Module (RDM) も提案する。
論文 参考訳(メタデータ) (2024-09-11T06:12:03Z) - Towards RGB-NIR Cross-modality Image Registration and Beyond [21.475871648254564]
本稿では,RGB(可視)-NIR(近赤外)クロスモダリティ画像登録の領域に着目した。
まずRGB-NIR画像登録(RGB-NIR-IRegis)ベンチマークを示す。
次に、可視画像と赤外線画像の非一貫性な局所的特徴がモデル性能に与える影響を明らかにするために、いくつかの指標を設計する。
論文 参考訳(メタデータ) (2024-05-30T10:25:50Z) - Modular Anti-noise Deep Learning Network for Robotic Grasp Detection
Based on RGB Images [2.759223695383734]
本稿では,単一のRGB画像からつかむポーズを検出するための興味深いアプローチを提案する。
本稿では,認識とセマンティックセグメンテーションを付加したモジュール型学習ネットワークを提案する。
提案手法の有効性と精度を,実践的な実験と評価を通じて実証する。
論文 参考訳(メタデータ) (2023-10-30T02:01:49Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - AdaptiveWeighted Attention Network with Camera Spectral Sensitivity
Prior for Spectral Reconstruction from RGB Images [22.26917280683572]
スペクトル再構成のための適応重み付き注意ネットワーク(AWAN)を提案する。
AWCAおよびPSNLモジュールは、チャネルワイドな特徴応答を再配置するために開発された。
NTIRE 2020 Spectral Reconstruction Challengeでは、クリーントラックで1位、リアルワールドで3位を獲得しました。
論文 参考訳(メタデータ) (2020-05-19T09:21:01Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。