論文の概要: Masked Transformer for image Anomaly Localization
- arxiv url: http://arxiv.org/abs/2210.15540v1
- Date: Thu, 27 Oct 2022 15:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:52:28.454564
- Title: Masked Transformer for image Anomaly Localization
- Title(参考訳): 画像異常定位のためのマスク変圧器
- Authors: Axel De Nardin, Pankaj Mishra, Gian Luca Foresti, Claudio Piciarelli
- Abstract要約: パッチマスキングを用いたビジョントランスフォーマーアーキテクチャに基づく画像異常検出のための新しいモデルを提案する。
マルチレゾリューションパッチとその集合埋め込みは,モデルの性能を大幅に向上させることを示す。
提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされている。
- 参考スコア(独自算出の注目度): 14.455765147827345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image anomaly detection consists in detecting images or image portions that
are visually different from the majority of the samples in a dataset. The task
is of practical importance for various real-life applications like biomedical
image analysis, visual inspection in industrial production, banking, traffic
management, etc. Most of the current deep learning approaches rely on image
reconstruction: the input image is projected in some latent space and then
reconstructed, assuming that the network (mostly trained on normal data) will
not be able to reconstruct the anomalous portions. However, this assumption
does not always hold. We thus propose a new model based on the Vision
Transformer architecture with patch masking: the input image is split in
several patches, and each patch is reconstructed only from the surrounding
data, thus ignoring the potentially anomalous information contained in the
patch itself. We then show that multi-resolution patches and their collective
embeddings provide a large improvement in the model's performance compared to
the exclusive use of the traditional square patches. The proposed model has
been tested on popular anomaly detection datasets such as MVTec and head CT and
achieved good results when compared to other state-of-the-art approaches.
- Abstract(参考訳): 画像異常検出は、データセットのほとんどのサンプルと視覚的に異なる画像または画像部分を検出することで構成される。
この課題は、バイオメディカル画像分析、産業生産における視覚検査、銀行、交通管理など、様々な実生活の応用において実際に重要である。
現在のディープラーニングアプローチのほとんどは、イメージ再構成に依存しており、入力されたイメージは、ある潜在空間に投影され、通常データに基づいてトレーニングされたネットワークが、異常部分の再構築を行なえないことを前提に、再構成される。
しかし、この仮定は常に成り立つとは限らない。
入力画像は複数のパッチに分割され、各パッチは周囲のデータからのみ再構成されるため、パッチ自体に含まれる可能性のある異常情報を無視する。
次に,マルチレゾリューションパッチとその集合埋め込みは,従来の正方形パッチの排他的使用と比較して,モデルの性能に大きな改善をもたらすことを示す。
提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされ,他の最先端手法と比較して良好な結果が得られた。
関連論文リスト
- DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - PatchNR: Learning from Small Data by Patch Normalizing Flow
Regularization [57.37911115888587]
正規化フローに基づく画像の逆問題に対する変分モデリングのための正規化器を提案する。
patchNRと呼ばれる我々の正規化器は、ごく少数の画像のパッチで学習したフローを正規化します。
論文 参考訳(メタデータ) (2022-05-24T12:14:26Z) - AnoViT: Unsupervised Anomaly Detection and Localization with Vision
Transformer-based Encoder-Decoder [3.31490164885582]
我々は,画像パッチ間のグローバルな関係を学習することにより,通常の情報を反映する視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案する。
提案モデルは,3つのベンチマークデータセット上での畳み込みモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-21T09:01:37Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Inpainting Transformer for Anomaly Detection [0.0]
Inpainting Transformer(InTra)は、多数のイメージパッチにカバーパッチを塗布するように訓練されている。
InTraは、検出とローカライゼーションのためのMVTec ADデータセットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T17:27:44Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Image Anomaly Detection by Aggregating Deep Pyramidal Representations [16.246831343527052]
異常検出は、データセット内で、ほとんどのデータと大きく異なるサンプルを特定することで構成される。
本稿では,複数のピラミッドレベルを持つ深層ニューラルネットワークを用いた画像異常検出に着目し,画像特徴を異なるスケールで解析する。
論文 参考訳(メタデータ) (2020-11-12T09:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。