論文の概要: LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data
- arxiv url: http://arxiv.org/abs/2601.09118v1
- Date: Wed, 14 Jan 2026 03:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.248942
- Title: LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data
- Title(参考訳): LPCAN:RGB-Dデータを用いたレール表面欠陥検出用軽量ピラミッドクロスアテンションネットワーク
- Authors: Jackie Alex, Guoqiang Huan,
- Abstract要約: 本稿では,現在のビジョンに基づくレール欠陥検出手法の限界に対処する。
本稿では,RGB-Dデータを利用した軽量ピラミッドクロスアテンションネットワーク(LPCANet)を提案する。
LPCANetは990万のパラメータ、2.50GのFLOP、162.60fpsの推論速度で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the limitations of current vision-based rail defect detection methods, including high computational complexity, excessive parameter counts, and suboptimal accuracy. We propose a Lightweight Pyramid Cross-Attention Network (LPCANet) that leverages RGB-D data for efficient and accurate defect identification. The architecture integrates MobileNetv2 as a backbone for RGB feature extraction with a lightweight pyramid module (LPM) for depth processing, coupled with a cross-attention mechanism (CAM) for multimodal fusion and a spatial feature extractor (SFE) for enhanced structural analysis. Comprehensive evaluations on three unsupervised RGB-D rail datasets (NEU-RSDDS-AUG, RSDD-TYPE1, RSDD-TYPE2) demonstrate that LPCANet achieves state-of-the-art performance with only 9.90 million parameters, 2.50 G FLOPs, and 162.60 fps inference speed. Compared to 18 existing methods, LPCANet shows significant improvements, including +1.48\% in $S_α$, +0.86\% in IOU, and +1.77\% in MAE over the best-performing baseline. Ablation studies confirm the critical roles of CAM and SFE, while experiments on non-rail datasets (DAGM2007, MT, Kolektor-SDD2) validate its generalization capability. The proposed framework effectively bridges traditional and deep learning approaches, offering substantial practical value for industrial defect inspection. Future work will focus on further model compression for real-time deployment.
- Abstract(参考訳): 本稿では,高計算複雑性,過度パラメータ数,最適下値精度など,現在のビジョンに基づくレール欠陥検出手法の限界に対処する。
本稿では,RGB-Dデータを利用した軽量ピラミッドクロスアテンションネットワーク(LPCANet)を提案する。
このアーキテクチャは、RGB特徴抽出のバックボーンとしてMobileNetv2を、深度処理のための軽量ピラミッドモジュール(LPM)と、マルチモーダル核融合のためのクロスアテンション機構(CAM)と、構造解析を強化するための空間特徴抽出器(SFE)とを結合して統合する。
3つの教師なしRGB-Dレールデータセット(NEU-RSDDS-AUG, RSDD-TYPE1, RSDD-TYPE2)の総合評価では、LPCANetは990万のパラメータと2.50GのFLOPと162.60fpsの推論速度で最先端のパフォーマンスを達成した。
18の既存手法と比較して、LPCANet は +1.48\% in $S_α$, +0.86\% in IOU, +1.77\% in the best-perform baseline など、大幅に改善されている。
非レールデータセット(DAGM2007, MT, Kolektor-SDD2)の実験では, CAM と SFE の重要性が確認された。
提案手法は, 従来型および深層学習のアプローチを効果的に橋渡しし, 工業的欠陥検査に実質的な価値を提供する。
今後は、リアルタイムデプロイメントのためのさらなるモデル圧縮に注力する予定である。
関連論文リスト
- MRS-YOLO Railroad Transmission Line Foreign Object Detection Based on Improved YOLO11 and Channel Pruning [2.6795746856835785]
YOLO11に基づく改良アルゴリズム MRS-YOLOを提案する。
MRS-YOLOアルゴリズムのmAP50とmAP50:95はそれぞれ94.8%と86.4%に改善されている。
論文 参考訳(メタデータ) (2025-10-12T11:38:09Z) - A Lightweight Group Multiscale Bidirectional Interactive Network for Real-Time Steel Surface Defect Detection [15.140649886958945]
Group Multiscale Bidirectional Interactive (GMBI)モジュールは、マルチスケールの特徴抽出と相互作用を強化する。
SD-Saliency-900とNRSD-MNデータセットの実験は、GMBINetがGPUで1048 FPS、CPUで512解像度で16.53 FPSのリアルタイム速度で競合精度を提供することを示した。
論文 参考訳(メタデータ) (2025-08-22T13:58:35Z) - Beyond RGB and Events: Enhancing Object Detection under Adverse Lighting with Monocular Normal Maps [6.240947520777607]
我々は,新しいマルチモーダル検出フレームワークであるNRE-Netを紹介する。
これは、単眼で予測される表面正規地図、RGB画像、イベントストリームの3つの相補的なモダリティを融合させる。
NRE-Netは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-04T07:19:20Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - SPFFNet: Strip Perception and Feature Fusion Spatial Pyramid Pooling for Fabric Defect Detection [0.0]
YOLOv11に基づくファブリック欠陥検出モデルを提案する。
SPM(Strip Perception Module)を導入し,マルチスケールのコンボリューションにより機能キャプチャを改善する。
また,適応重み付き共振器(FECIoU)の新たな拡張完全交叉法を提案する。
論文 参考訳(メタデータ) (2025-02-03T15:33:11Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。