論文の概要: A Lightweight Group Multiscale Bidirectional Interactive Network for Real-Time Steel Surface Defect Detection
- arxiv url: http://arxiv.org/abs/2508.16397v1
- Date: Fri, 22 Aug 2025 13:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.401697
- Title: A Lightweight Group Multiscale Bidirectional Interactive Network for Real-Time Steel Surface Defect Detection
- Title(参考訳): リアルタイム鋼表面欠陥検出のための軽量グループ多方向性対話ネットワーク
- Authors: Yong Zhang, Cunjian Chen, Qiang Gao, Yi Wang, Bin Fang,
- Abstract要約: Group Multiscale Bidirectional Interactive (GMBI)モジュールは、マルチスケールの特徴抽出と相互作用を強化する。
SD-Saliency-900とNRSD-MNデータセットの実験は、GMBINetがGPUで1048 FPS、CPUで512解像度で16.53 FPSのリアルタイム速度で競合精度を提供することを示した。
- 参考スコア(独自算出の注目度): 15.140649886958945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time surface defect detection is critical for maintaining product quality and production efficiency in the steel manufacturing industry. Despite promising accuracy, existing deep learning methods often suffer from high computational complexity and slow inference speeds, which limit their deployment in resource-constrained industrial environments. Recent lightweight approaches adopt multibranch architectures based on depthwise separable convolution (DSConv) to capture multiscale contextual information. However, these methods often suffer from increased computational overhead and lack effective cross-scale feature interaction, limiting their ability to fully leverage multiscale representations. To address these challenges, we propose GMBINet, a lightweight framework that enhances multiscale feature extraction and interaction through novel Group Multiscale Bidirectional Interactive (GMBI) modules. The GMBI adopts a group-wise strategy for multiscale feature extraction, ensuring scale-agnostic computational complexity. It further integrates a Bidirectional Progressive Feature Interactor (BPFI) and a parameter-free Element-Wise Multiplication-Summation (EWMS) operation to enhance cross-scale interaction without introducing additional computational overhead. Experiments on SD-Saliency-900 and NRSD-MN datasets demonstrate that GMBINet delivers competitive accuracy with real-time speeds of 1048 FPS on GPU and 16.53 FPS on CPU at 512 resolution, using only 0.19 M parameters. Additional evaluations on the NEU-CLS defect classification dataset further confirm the strong generalization ability of our method, demonstrating its potential for broader industrial vision applications beyond surface defect detection. The dataset and code are publicly available at: https://github.com/zhangyongcode/GMBINet.
- Abstract(参考訳): 実時間表面欠陥検出は製鋼業における製品品質と生産効率の維持に不可欠である。
有望な精度にもかかわらず、既存のディープラーニング手法は、しばしば高い計算複雑性と遅い推論速度に悩まされ、資源に制約のある産業環境への展開を制限する。
近年,DSConv(Deepwise Separable Convolution)に基づくマルチブランチアーキテクチャを採用した。
しかしながら、これらの手法は計算オーバーヘッドが増大し、効果的なクロススケールな特徴相互作用が欠如し、マルチスケール表現を完全に活用する能力が制限されることが多い。
これらの課題に対処するために,GMBINetを提案する。GMBINetは,GMBI(Group Multiscale Bidirectional Interactive)モジュールを通じて,マルチスケールの特徴抽出とインタラクションを強化する軽量フレームワークである。
GMBIは、マルチスケールの特徴抽出のためのグループワイド戦略を採用し、スケールに依存しない計算複雑性を保証する。
さらに、双方向プログレッシブ・フィーチャー・インターエータ (BPFI) とパラメータフリーな要素-ワイズ乗算-要約 (EWMS) 演算を統合し、さらなる計算オーバーヘッドを導入することなく、クロススケールな相互作用を強化する。
SD-Saliency-900とNRSD-MNデータセットの実験により、GMBINetは、GPUで1048 FPS、CPUで512解像度で16.53 FPSのリアルタイム速度で競合精度を提供する。
NEU-CLS欠陥分類データセットのさらなる評価により、この手法の強力な一般化能力が確認され、表面欠陥検出以上の幅広い産業用視覚応用の可能性が示された。
データセットとコードは、https://github.com/zhangyongcode/GMBINet.comで公開されている。
関連論文リスト
- MRC-DETR: An Adaptive Multi-Residual Coupled Transformer for Bare Board PCB Defect Detection [11.16242420187823]
そこで本研究では,PCB 欠陥検査のための新規かつ効率的な検出フレームワーク MRC-DETR を提案する。
特徴表現能力を高めるため,MRDCB(Multi-Residual Directional Coupled Block)を設計する。
非効率な層間情報融合による計算冗長性を低減するため、適応スクリーニングピラミッドネットワーク(ASPN)を導入する。
論文 参考訳(メタデータ) (2025-07-04T08:42:38Z) - LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [9.000760165185532]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。
このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文 参考訳(メタデータ) (2025-06-05T02:29:04Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。