論文の概要: Visual Anomaly Detection via Dual-Attention Transformer and
Discriminative Flow
- arxiv url: http://arxiv.org/abs/2303.17882v1
- Date: Fri, 31 Mar 2023 08:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:50:39.603838
- Title: Visual Anomaly Detection via Dual-Attention Transformer and
Discriminative Flow
- Title(参考訳): デュアルアテンション変換器による視覚異常検出と識別フロー
- Authors: Haiming Yao, Wei Luo, Wenyong Yu
- Abstract要約: 本稿では,視覚異常検出のための新しいDual-attention Transformer and Discriminative Flow(DADF)フレームワークを提案する。
提案するDTDFは,まずトレーニング済みネットワークを利用して,マルチスケールの事前埋め込みを実現するという,新しいパラダイムを提案する。
DADFは、Mvtec ADのイメージ/ピクセルAUROCの98.3/98.4、Mvtec LOCO ADのイメージAUROCの83.7、Mvtec LOCO ADのピクセルsPROの67.4を達成している。
- 参考スコア(独自算出の注目度): 3.720546514089338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the novel state-of-the-art Dual-attention
Transformer and Discriminative Flow (DADF) framework for visual anomaly
detection. Based on only normal knowledge, visual anomaly detection has wide
applications in industrial scenarios and has attracted significant attention.
However, most existing methods fail to meet the requirements. In contrast, the
proposed DTDF presents a new paradigm: it firstly leverages a pre-trained
network to acquire multi-scale prior embeddings, followed by the development of
a vision Transformer with dual attention mechanisms, namely self-attention and
memorial-attention, to achieve two-level reconstruction for prior embeddings
with the sequential and normality association. Additionally, we propose using
normalizing flow to establish discriminative likelihood for the joint
distribution of prior and reconstructions at each scale. The DADF achieves
98.3/98.4 of image/pixel AUROC on Mvtec AD; 83.7 of image AUROC and 67.4 of
pixel sPRO on Mvtec LOCO AD benchmarks, demonstrating the effectiveness of our
proposed approach.
- Abstract(参考訳): 本稿では,視覚異常検出のための最新技術であるDual-Atention Transformer and Discriminative Flow(DADF)フレームワークについて紹介する。
通常の知識のみに基づいて、視覚異常検出は産業シナリオに広く応用され、注目を集めている。
しかし、既存のほとんどのメソッドは要件を満たしていない。
対照的に、DTDFは、まずトレーニング済みネットワークを利用して、マルチスケールの事前埋め込みを取得し、続いて、自己注意機構とメモリアテンションを兼ね備えたビジョントランスフォーマーを開発し、シーケンシャルおよびノーマルティフィケーションアソシエーションによる事前埋め込みの2段階再構築を実現している。
さらに,各規模における前処理と再建処理の連立分布の識別可能性を確立するために,正規化フローを用いることを提案する。
DADFは、Mvtec AD上の画像/画素AUROCの98.3/98.4、Mvtec LOCO ADベンチマーク上の画像AUROCの83.7、画素sPROの67.4を達成し、提案手法の有効性を実証した。
関連論文リスト
- Prior Normality Prompt Transformer for Multi-class Industrial Image Anomaly Detection [6.865429486202104]
マルチクラス異常検出のためのPNPT(Presideor Normality Prompt Transformer)を導入する。
PNPTは戦略的に通常の意味論を取り入れ、「アイデンティティマッピング」問題を緩和する。
これにより、事前の正規性プロンプトを再構築プロセスに統合し、二重ストリームモデルを生成する。
論文 参考訳(メタデータ) (2024-06-17T13:10:04Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - ReContrast: Domain-Specific Anomaly Detection via Contrastive
Reconstruction [29.370142078092375]
殆どの高度な教師なし異常検出(UAD)手法は、大規模データセットで事前訓練された冷凍エンコーダネットワークの特徴表現をモデル化することに依存している。
本稿では,事前学習した画像領域に対するバイアスを低減するために,ネットワーク全体を最適化する新しい疫学的UAD手法であるReContrastを提案する。
2つの一般的な産業欠陥検出ベンチマークと3つの医用画像UADタスクで実験を行い、現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T05:21:15Z) - Generalizable Industrial Visual Anomaly Detection with Self-Induction
Vision Transformer [5.116033262865781]
産業用視覚異常検出・局所化のための自己誘導型視覚変換器(SIVT)を提案する。
提案したSIVTは、まず、事前学習したCNNからプロパティ記述子として識別特徴を抽出し、抽出した特徴を自己監督的に再構成する。
その結果,AUROCでは2.8-6.3,APでは3.3-7.6の改善により,最先端検出性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-11-22T14:56:12Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。