論文の概要: YOLO-FDA: Integrating Hierarchical Attention and Detail Enhancement for Surface Defect Detection
- arxiv url: http://arxiv.org/abs/2506.21135v1
- Date: Thu, 26 Jun 2025 10:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.047852
- Title: YOLO-FDA: Integrating Hierarchical Attention and Detail Enhancement for Surface Defect Detection
- Title(参考訳): YOLO-FDA:表面欠陥検出のための階層的注意と詳細拡張の統合
- Authors: Jiawei Hu,
- Abstract要約: YOLO-FDAは、細かなディテールの強化と注意誘導機能融合を統合した、YOLOベースの新しい検出フレームワークである。
YOLO-FDAは、さまざまな種類の欠陥やスケールにおいて、精度と堅牢性の両方の観点から、既存の最先端の手法を一貫して上回ります。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surface defect detection in industrial scenarios is both crucial and technically demanding due to the wide variability in defect types, irregular shapes and sizes, fine-grained requirements, and complex material textures. Although recent advances in AI-based detectors have improved performance, existing methods often suffer from redundant features, limited detail sensitivity, and weak robustness under multiscale conditions. To address these challenges, we propose YOLO-FDA, a novel YOLO-based detection framework that integrates fine-grained detail enhancement and attention-guided feature fusion. Specifically, we adopt a BiFPN-style architecture to strengthen bidirectional multilevel feature aggregation within the YOLOv5 backbone. To better capture fine structural changes, we introduce a Detail-directional Fusion Module (DDFM) that introduces a directional asymmetric convolution in the second-lowest layer to enrich spatial details and fuses the second-lowest layer with low-level features to enhance semantic consistency. Furthermore, we propose two novel attention-based fusion strategies, Attention-weighted Concatenation (AC) and Cross-layer Attention Fusion (CAF) to improve contextual representation and reduce feature noise. Extensive experiments on benchmark datasets demonstrate that YOLO-FDA consistently outperforms existing state-of-the-art methods in terms of both accuracy and robustness across diverse types of defects and scales.
- Abstract(参考訳): 工業シナリオにおける表面欠陥検出は、欠陥の種類、不規則な形状と大きさ、きめ細かな要求、複雑な材料テクスチャの幅広いばらつきにより、決定的かつ技術的に要求される。
AIベースの検出器の最近の進歩により性能は向上したが、既存の手法は冗長な特徴、詳細感度の制限、マルチスケール条件下での弱い堅牢性に悩まされることが多い。
これらの課題に対処するために, YOLO-FDAという, 細かな詳細化と注意誘導型特徴融合を統合した, YOLOベースの新しい検出フレームワークを提案する。
具体的には, YOLOv5 バックボーン内の双方向多レベル特徴集約を強化するために, BiFPN スタイルのアーキテクチャを採用する。
細かな構造変化をより正確に捉えるため,第2層に方向非対称な畳み込みを導入したDetail-directional Fusion Module (DDFM)を導入し,空間的詳細を充実させ,第2層を低レベルの特徴で融合させて意味的整合性を高める。
さらに,注意型統合(AC)とクロスレイヤ・アテンション・フュージョン(CAF)の2つの新しい融合戦略を提案し,文脈表現の改善と特徴雑音の低減を図る。
ベンチマークデータセットに関する大規模な実験により、YOLO-FDAは、さまざまな種類の欠陥やスケールにおいて、正確性と堅牢性の両方の観点から、既存の最先端メソッドを一貫して上回ります。
関連論文リスト
- YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。
YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。
リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文 参考訳(メタデータ) (2025-04-15T13:13:22Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Progressive Multi-scale Consistent Network for Multi-class Fundus Lesion
Segmentation [28.58972084293778]
提案するプログレッシブ・フィーチャー・フュージョン(PFF)ブロックと動的アテンション・ブロック(DAB)を統合した,プログレッシブ・マルチスケール・一貫性ネットワーク(PMCNet)を提案する。
PFFブロックは、隣接するエンコーディング層からのマルチスケール機能を段階的に統合し、きめ細かい詳細と高レベルのセマンティクスを集約することで、各層の特徴学習を容易にする。
DABは、異なるスケールで融合した特徴から注意深い手がかりを動的に学習するように設計されているため、マルチスケール機能に存在する本質的な矛盾を円滑にすることを目的としている。
論文 参考訳(メタデータ) (2022-05-31T12:10:01Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。