論文の概要: AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder
- arxiv url: http://arxiv.org/abs/2203.10808v1
- Date: Mon, 21 Mar 2022 09:01:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 00:46:05.103053
- Title: AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder
- Title(参考訳): anovit: vision transformerベースのエンコーダデコーダによる教師なし異常検出と局在化
- Authors: Yunseung Lee, Pilsung Kang
- Abstract要約: 我々は,画像パッチ間のグローバルな関係を学習することにより,通常の情報を反映する視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案する。
提案モデルは,3つのベンチマークデータセット上での畳み込みモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 3.31490164885582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image anomaly detection problems aim to determine whether an image is
abnormal, and to detect anomalous areas. These methods are actively used in
various fields such as manufacturing, medical care, and intelligent
information. Encoder-decoder structures have been widely used in the field of
anomaly detection because they can easily learn normal patterns in an
unsupervised learning environment and calculate a score to identify
abnormalities through a reconstruction error indicating the difference between
input and reconstructed images. Therefore, current image anomaly detection
methods have commonly used convolutional encoder-decoders to extract normal
information through the local features of images. However, they are limited in
that only local features of the image can be utilized when constructing a
normal representation owing to the characteristics of convolution operations
using a filter of fixed size. Therefore, we propose a vision transformer-based
encoder-decoder model, named AnoViT, designed to reflect normal information by
additionally learning the global relationship between image patches, which is
capable of both image anomaly detection and localization. The proposed approach
constructs a feature map that maintains the existing location information of
individual patches by using the embeddings of all patches passed through
multiple self-attention layers. The proposed AnoViT model performed better than
the convolution-based model on three benchmark datasets. In MVTecAD, which is a
representative benchmark dataset for anomaly localization, it showed improved
results on 10 out of 15 classes compared with the baseline. Furthermore, the
proposed method showed good performance regardless of the class and type of the
anomalous area when localization results were evaluated qualitatively.
- Abstract(参考訳): 画像異常検出問題は、画像が異常であるかを判定し、異常領域を検出することを目的としている。
これらの手法は製造業、医療、知的情報など様々な分野で積極的に用いられている。
エンコーダ・デコーダ構造は、教師なし学習環境において正常なパターンを容易に学習でき、入力画像と再構成画像の差を示す再構成誤差によって異常を識別するスコアを計算できるため、異常検出の分野で広く用いられている。
そのため、現在の画像異常検出法では、画像の局所的特徴から正規情報を抽出するために畳み込みエンコーダデコーダが一般的である。
しかし,画像の局所的な特徴のみを,固定サイズのフィルタを用いて畳み込み操作の特性から正規表現を構築する際に利用できる点が制限されている。
そこで,視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案し,画像の異常検出とローカライゼーションの両方が可能な画像パッチのグローバルな関係を学習することにより,通常の情報を反映する。
提案手法は,複数のセルフアテンション層を通過するパッチの埋め込みを利用して,個々のパッチの既存の位置情報を維持する機能マップを構築する。
提案するanovitモデルは,3つのベンチマークデータセットの畳み込みベースモデルよりも優れた性能を示した。
異常局所化のための代表的なベンチマークデータセットであるMVTecADでは、ベースラインと比較して15クラス中10クラスで改善された結果を示した。
さらに, 定位結果が定性的に評価された場合, 異常領域のクラスや種類に関わらず, 良好な性能を示した。
関連論文リスト
- GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - A Hierarchically Feature Reconstructed Autoencoder for Unsupervised Anomaly Detection [8.512184778338806]
それは、階層的な特徴表現を抽出するための十分に訓練されたエンコーダと、これらの中間的特徴をエンコーダから再構成するデコーダで構成されている。
復号器が機能再構成に失敗すると異常を検知し、階層的特徴再構成の誤差を異常マップに集約して異常局所化を実現する。
実験の結果,提案手法はMNIST, Fashion-MNIST, CIFAR-10, MVTec異常検出データセットにおいて,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-15T07:20:27Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach [49.995833831087175]
本研究は,画像のマスキング領域にペンキを塗布することにより,汎用的な映像時間PAを生成する手法を提案する。
さらに,OCC設定下での現実世界の異常を検出するための単純な統合フレームワークを提案する。
提案手法は,OCC設定下での既存のPAs生成および再構築手法と同等に動作する。
論文 参考訳(メタデータ) (2023-11-27T13:14:06Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z) - Inpainting Transformer for Anomaly Detection [0.0]
Inpainting Transformer(InTra)は、多数のイメージパッチにカバーパッチを塗布するように訓練されている。
InTraは、検出とローカライゼーションのためのMVTec ADデータセットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T17:27:44Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Iterative energy-based projection on a normal data manifold for anomaly
localization [3.785123406103385]
本稿では,オートエンコーダを学習した正規データ多様体上で異常データを投影する手法を提案する。
オートエンコーダの入力を反復的に更新することにより、オートエンコーダボトルネックに起因する高周波情報の損失を回避できる。
論文 参考訳(メタデータ) (2020-02-10T13:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。