論文の概要: Cross-Modal Alignment and Fusion for RGB-D Transmission-Line Defect Detection
- arxiv url: http://arxiv.org/abs/2602.01696v2
- Date: Tue, 03 Feb 2026 07:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.855168
- Title: Cross-Modal Alignment and Fusion for RGB-D Transmission-Line Defect Detection
- Title(参考訳): RGB-D伝送線欠陥検出のためのクロスモーダルアライメントと核融合
- Authors: Jiaming Cui, Wenqiang Li, Shuai Zhou, Ruifeng Qin, Feng Shen,
- Abstract要約: 本稿では,RGBの外観と深度幾何学を原理化されたヒューズ・パラダイムを通じて統合したクロスモーダルアライメント・アンド・フュージョン・ネットワークであるCMAFNetを提案する。
CMAFNetは、辞書ベースの特徴浄化を行うセマンティック再構成モジュールで構成されている。
軽量な派生型は228 FPSで24.8% mAP50に達し、わずか4.9Mのパラメータしか持たない。
- 参考スコア(独自算出の注目度): 11.637942429146172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transmission line defect detection remains challenging for automated UAV inspection due to the dominance of small-scale defects, complex backgrounds, and illumination variations. Existing RGB-based detectors, despite recent progress, struggle to distinguish geometrically subtle defects from visually similar background structures under limited chromatic contrast. This paper proposes CMAFNet, a Cross-Modal Alignment and Fusion Network that integrates RGB appearance and depth geometry through a principled purify-then-fuse paradigm. CMAFNet consists of a Semantic Recomposition Module that performs dictionary-based feature purification via a learned codebook to suppress modality-specific noise while preserving defect-discriminative information, and a Contextual Semantic Integration Framework that captures global spatial dependencies using partial-channel attention to enhance structural semantic reasoning. Position-wise normalization within the purification stage enforces explicit reconstruction-driven cross-modal alignment, ensuring statistical compatibility between heterogeneous features prior to fusion. Extensive experiments on the TLRGBD benchmark, where 94.5% of instances are small objects, demonstrate that CMAFNet achieves 32.2% mAP@50 and 12.5% APs, outperforming the strongest baseline by 9.8 and 4.0 percentage points, respectively. A lightweight variant reaches 24.8% mAP50 at 228 FPS with only 4.9M parameters, surpassing all YOLO-based detectors while matching transformer-based methods at substantially lower computational cost.
- Abstract(参考訳): 送電線欠陥検出は、小型の欠陥、複雑な背景、照明のバリエーションにより、自動UAV検査において依然として困難である。
既存のRGBベースの検出器は、最近の進歩にもかかわらず、幾何学的に微妙な欠陥を、色調のコントラストに制限された視覚的に類似した背景構造と区別するのに苦労している。
本稿では,RGBの外観と深度幾何を,原理的パーフェクト・アンフューズ・パラダイムを通じて統合する,クロスモーダルアライメント・フュージョン・ネットワークであるCMAFNetを提案する。
CMAFNetは、欠陥識別情報を保持しながら、モダリティ固有のノイズを抑えるための学習コードブックを介して辞書ベースの特徴浄化を行うセマンティック再構成モジュールと、部分チャネルアテンションを用いてグローバルな空間的依存関係をキャプチャして構造的セマンティック推論を強化するコンテキストセマンティック統合フレームワークから構成される。
浄化段階における位置ワイド正規化は、明示的な再構成駆動によるクロスモーダルアライメントを強制し、融合前の不均一な特徴間の統計的整合性を確保する。
TLRGBDベンチマークでは94.5%のインスタンスが小さなオブジェクトであり、CMAFNetは32.2%のmAP@50と12.5%のAPを達成し、それぞれ9.8と4.0で最強のベースラインを上回った。
軽量な派生型は228 FPSで24.8% mAP50に達し、4.9Mのパラメータしか持たない。
関連論文リスト
- D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data [0.0]
本稿では,現在のビジョンに基づくレール欠陥検出手法の限界に対処する。
本稿では,RGB-Dデータを利用した軽量ピラミッドクロスアテンションネットワーク(LPCANet)を提案する。
LPCANetは990万のパラメータ、2.50GのFLOP、162.60fpsの推論速度で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-14T03:35:09Z) - Physics-Inspired Modeling and Content Adaptive Routing in an Infrared Gas Leak Detection Network [19.83756107644484]
赤外線ガス漏れを検出する物理エッジハイブリッドガスダイナミックルーティングネットワーク(PEG-DRNet)を提案する。
PEG-DRNetは、精度と計算効率の最良のバランスで、より優れた全体的な性能を達成する。
論文 参考訳(メタデータ) (2025-12-29T06:28:20Z) - MRS-YOLO Railroad Transmission Line Foreign Object Detection Based on Improved YOLO11 and Channel Pruning [2.6795746856835785]
YOLO11に基づく改良アルゴリズム MRS-YOLOを提案する。
MRS-YOLOアルゴリズムのmAP50とmAP50:95はそれぞれ94.8%と86.4%に改善されている。
論文 参考訳(メタデータ) (2025-10-12T11:38:09Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - SPFFNet: Strip Perception and Feature Fusion Spatial Pyramid Pooling for Fabric Defect Detection [0.0]
YOLOv11に基づくファブリック欠陥検出モデルを提案する。
SPM(Strip Perception Module)を導入し,マルチスケールのコンボリューションにより機能キャプチャを改善する。
また,適応重み付き共振器(FECIoU)の新たな拡張完全交叉法を提案する。
論文 参考訳(メタデータ) (2025-02-03T15:33:11Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。