論文の概要: Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection
- arxiv url: http://arxiv.org/abs/2312.07495v2
- Date: Sun, 11 Aug 2024 14:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:29.009332
- Title: Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection
- Title(参考訳): マルチクラス非教師付き異常検出のためのプレーンVIT再構成の検討
- Authors: Jiangning Zhang, Xuhai Chen, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Ming-Hsuan Yang, Dacheng Tao,
- Abstract要約: Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
- 参考スコア(独自算出の注目度): 128.40330044868293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies a challenging and practical issue known as multi-class unsupervised anomaly detection (MUAD). This problem requires only normal images for training while simultaneously testing both normal and anomaly images across multiple classes. Existing reconstruction-based methods typically adopt pyramidal networks as encoders and decoders to obtain multi-resolution features, often involving complex sub-modules with extensive handcraft engineering. In contrast, a plain Vision Transformer (ViT) showcasing a more straightforward architecture has proven effective in multiple domains, including detection and segmentation tasks. It is simpler, more effective, and elegant. Following this spirit, we explore the use of only plain ViT features for MUAD. We first abstract a Meta-AD concept by synthesizing current reconstruction-based methods. Subsequently, we instantiate a novel ViT-based ViTAD structure, designed incrementally from both global and local perspectives. This model provide a strong baseline to facilitate future research. Additionally, this paper uncovers several intriguing findings for further investigation. Finally, we comprehensively and fairly benchmark various approaches using eight metrics. Utilizing a basic training regimen with only an MSE loss, ViTAD achieves state-of-the-art results and efficiency on MVTec AD, VisA, and Uni-Medical datasets. \Eg, achieving 85.4 mAD that surpasses UniAD by +3.0 for the MVTec AD dataset, and it requires only 1.1 hours and 2.3G GPU memory to complete model training on a single V100 that can serve as a strong baseline to facilitate the development of future research. Full code is available at https://zhangzjn.github.io/projects/ViTAD/.
- Abstract(参考訳): 本研究は,Multi-class unsupervised anomaly detection (MUAD)として知られる,困難かつ実用的な問題を研究する。
この問題は、複数のクラスにまたがる正常画像と異常画像の両方を同時にテストしながら、トレーニングのために通常の画像のみを必要とする。
既存の再構成に基づく手法では、典型的にエンコーダやデコーダとしてピラミッドネットワークを採用し、多解像度の機能を得る。
対照的に、より単純なアーキテクチャを示す平易なViT(Vit)は、検出やセグメンテーションタスクを含む複数の領域で有効であることが証明されている。
シンプルで、より効果的で、エレガントです。
この精神に続いて、MUAD のプレーンな ViT 機能のみの使用について検討する。
我々はまず,現在の再構築手法を合成することでメタADの概念を抽象化する。
その後、グローバルとローカルの両方の観点から漸進的に設計された新しいViTベースのViTAD構造をインスタンス化する。
このモデルは、将来の研究を促進するための強力なベースラインを提供する。
さらに,本研究では,さらなる調査を行うための興味深い発見をいくつか明らかにした。
最後に、8つのメトリクスを使って、様々なアプローチを包括的かつかなりベンチマークします。
MSE損失のみの基本的なトレーニングレギュレータを利用することで、MVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
\Egは、MVTec ADデータセットでUniAD+3.0を超える85.4mADを達成し、1つのV100上でモデルトレーニングを完了するのに1.1時間2.3GのGPUメモリしか必要としない。
完全なコードはhttps://zhangzjn.github.io/projects/ViTAD/で入手できる。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection [31.028622674616134]
本稿では,再構成に基づく異常検出フレームワーク,すなわちDianomalyを紹介する。
提案したDinomalyは,3つのデータセットでそれぞれ99.6%,98.7%,89.3%のイメージレベルAUを達成した。
論文 参考訳(メタデータ) (2024-05-23T08:55:20Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection [46.37418710853632]
複雑な設計の現況とTADにおける検出効率の低さを考慮し, 単純で, 単純で, かつ, 必須のベースラインについて検討する。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、パイプライン全体にわたってエンドツーエンドのトレーニングを実行することです。
この単純なベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイムRGB-Onlyベースラインを得る。
論文 参考訳(メタデータ) (2022-05-05T15:42:56Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。