論文の概要: Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection
- arxiv url: http://arxiv.org/abs/2207.08319v1
- Date: Sun, 17 Jul 2022 23:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:21:07.455379
- Title: Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection
- Title(参考訳): 欠陥変圧器:表面欠陥検出のための効率的なハイブリッド変圧器アーキテクチャ
- Authors: Junpu Wang, Guili Xu, Fuju Yan, Jinjin Wang and Zhengsheng Wang
- Abstract要約: 表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
- 参考スコア(独自算出の注目度): 2.0999222360659604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surface defect detection is an extremely crucial step to ensure the quality
of industrial products. Nowadays, convolutional neural networks (CNNs) based on
encoder-decoder architecture have achieved tremendous success in various defect
detection tasks. However, due to the intrinsic locality of convolution, they
commonly exhibit a limitation in explicitly modeling long-range interactions,
critical for pixel-wise defect detection in complex cases, e.g., cluttered
background and illegible pseudo-defects. Recent transformers are especially
skilled at learning global image dependencies but with limited local structural
information necessary for detailed defect location. To overcome the above
limitations, we propose an efficient hybrid transformer architecture, termed
Defect Transformer (DefT), for surface defect detection, which incorporates CNN
and transformer into a unified model to capture local and non-local
relationships collaboratively. Specifically, in the encoder module, a
convolutional stem block is firstly adopted to retain more detailed spatial
information. Then, the patch aggregation blocks are used to generate
multi-scale representation with four hierarchies, each of them is followed by a
series of DefT blocks, which respectively include a locally position-aware
block for local position encoding, a lightweight multi-pooling self-attention
to model multi-scale global contextual relationships with good computational
efficiency, and a convolutional feed-forward network for feature transformation
and further location information learning. Finally, a simple but effective
decoder module is proposed to gradually recover spatial details from the skip
connections in the encoder. Extensive experiments on three datasets demonstrate
the superiority and efficiency of our method compared with other CNN- and
transformer-based networks.
- Abstract(参考訳): 表面欠陥検出は、工業製品の品質を確保するための極めて重要なステップである。
現在、エンコーダ-デコーダアーキテクチャに基づく畳み込みニューラルネットワーク(cnns)は、様々な欠陥検出タスクで大きな成功を収めている。
しかし、畳み込みの本質的な局所性のため、複雑な場合、例えば、乱れの背景や不可解な擬似欠陥などにおいて、画素単位の欠陥検出に不可欠な長距離相互作用を明示的にモデル化する際の制限が一般的に示される。
近年のトランスフォーマーは特にグローバルな画像依存の学習に長けているが、詳細な欠陥検出に必要な局所構造情報は限られている。
上記の制限を克服するため,CNNと変圧器を統合モデルに組み込んだ局所的および非局所的関係を協調的にキャプチャする,表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
具体的には、エンコーダモジュールにおいて、まず畳み込みstemブロックを採用し、より詳細な空間情報を保持する。
次に、パッチアグリゲーションブロックを用いて、4つの階層からなるマルチスケール表現を生成し、それぞれに局所位置符号化のための局所位置認識ブロックと、計算効率の良いマルチスケールのグローバルコンテキスト関係をモデル化するための軽量マルチプールセルフアテンションと、特徴変換およびさらなる位置情報学習のための畳み込みフィードフォワードネットワークを含む一連のデフレットブロックを追従する。
最後に, 単純だが効果的なデコーダモジュールを提案し, エンコーダのスキップ接続から空間的詳細を徐々に復元する。
3つのデータセットに関する広範な実験は、他のcnnおよびtransformerベースのネットワークと比較して、提案手法の優位性と効率を示している。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - CINFormer: Transformer network with multi-stage CNN feature injection
for surface defect segmentation [73.02218479926469]
表面欠陥分割のための多段CNN特徴注入を用いた変圧器ネットワークを提案する。
CINFormerは、入力画像のマルチレベルCNN機能をエンコーダ内のトランスフォーマーネットワークの異なるステージに注入する、シンプルだが効果的な機能統合機構を提供する。
さらに、CINFormerはTop-Kセルフアテンションモジュールを提供し、欠陥に関するより重要な情報を持つトークンにフォーカスする。
論文 参考訳(メタデータ) (2023-09-22T06:12:02Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - CAINNFlow: Convolutional block Attention modules and Invertible Neural
Networks Flow for anomaly detection and localization tasks [28.835943674247346]
本研究では, CBAMを組み込んだ複雑な関数モデルの設計を行い, 空間構造情報の保持と抽出を効果的に行うことができる。
CAINNFlowは,CNNとTransformerのバックボーンネットワークを特徴抽出器として,高度な精度と推論効率を実現する。
論文 参考訳(メタデータ) (2022-06-04T13:45:08Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Full Transformer Framework for Robust Point Cloud Registration with Deep
Information Interaction [9.431484068349903]
最近のTransformerベースの手法は、ポイントクラウドの登録において高度なパフォーマンスを実現している。
近年のCNNは、現地の受容によるグローバルな関係のモデル化に失敗している。
トランスフォーマーの幅の浅いアーキテクチャと位置エンコーディングの欠如は、不明瞭な特徴抽出につながる。
論文 参考訳(メタデータ) (2021-12-17T08:40:52Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。