論文の概要: Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly
Detection
- arxiv url: http://arxiv.org/abs/2312.07495v1
- Date: Tue, 12 Dec 2023 18:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:51:12.009963
- Title: Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly
Detection
- Title(参考訳): マルチクラス非教師付き異常検出のためのプレーンVIT再構成の検討
- Authors: Jiangning Zhang, Xuhai Chen, Yabiao Wang, Chengjie Wang, Yong Liu,
Xiangtai Li, Ming-Hsuan Yang, Dacheng Tao
- Abstract要約: 本研究は,最近提案された多クラス非教師付き異常検出(MUAD)タスクについて検討する。
通常のイメージと異常なイメージの両方を複数のクラスで同時にテストしながら、トレーニングには通常のイメージしか必要としない。
単純なアーキテクチャを持つ平易な視覚変換器(ViT)は、複数のドメインで有効であることが示されている。
- 参考スコア(独自算出の注目度): 133.93365706990178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the recently proposed challenging and practical Multi-class
Unsupervised Anomaly Detection (MUAD) task, which only requires normal images
for training while simultaneously testing both normal/anomaly images for
multiple classes. Existing reconstruction-based methods typically adopt pyramid
networks as encoders/decoders to obtain multi-resolution features, accompanied
by elaborate sub-modules with heavier handcraft engineering designs for more
precise localization. In contrast, a plain Vision Transformer (ViT) with simple
architecture has been shown effective in multiple domains, which is simpler,
more effective, and elegant. Following this spirit, this paper explores plain
ViT architecture for MUAD. Specifically, we abstract a Meta-AD concept by
inducing current reconstruction-based methods. Then, we instantiate a novel and
elegant plain ViT-based symmetric ViTAD structure, effectively designed step by
step from three macro and four micro perspectives. In addition, this paper
reveals several interesting findings for further exploration. Finally, we
propose a comprehensive and fair evaluation benchmark on eight metrics for the
MUAD task. Based on a naive training recipe, ViTAD achieves state-of-the-art
(SoTA) results and efficiency on the MVTec AD and VisA datasets without bells
and whistles, obtaining 85.4 mAD that surpasses SoTA UniAD by +3.0, and only
requiring 1.1 hours and 2.3G GPU memory to complete model training by a single
V100 GPU. Source code, models, and more results are available at
https://zhangzjn.github.io/projects/ViTAD.
- Abstract(参考訳): 本研究は,複数のクラスに対して正常な画像と異常な画像の両方を同時にテストしながら,トレーニングに通常の画像のみを必要とする,課題で実用的なMulti-class Unsupervised Anomaly Detection (MUAD)タスクについて検討する。
既存のレコンストラクションベースの手法では、マルチレゾリューション機能を得るためにピラミッドネットワークをエンコーダ/デコーダとして採用することが多い。
対照的に、シンプルなアーキテクチャを持つ平易な視覚変換器(ViT)は、よりシンプルで、より効果的でエレガントな複数のドメインで有効であることが示されている。
本稿では,MUADのための平易なViTアーキテクチャについて検討する。
具体的には,メタADの概念を,現在の再構築手法によって抽象化する。
そして、3つのマクロと4つのマイクロ視点からステップバイステップで設計した、新しいエレガントでエレガントな ViT ベースの対称 ViTAD 構造をインスタンス化する。
さらに本論文では,さらなる探索のための興味深い知見について述べる。
最後に,muadタスクのための8つの指標に関する包括的かつ公正な評価ベンチマークを提案する。
ナイーブなトレーニングレシピに基づいて、VTADはMVTec ADとVisAデータセットに対して、ベルやホイッスルを使わずに、最新技術(SoTA)の結果と効率を達成し、SoTA UniADを+3.0で上回り、単一のV100 GPUでモデルトレーニングを完了するのに1.1時間2.3GのGPUメモリしか必要としない85.4mADを得る。
ソースコード、モデル、その他の結果はhttps://zhangzjn.github.io/projects/ViTADで公開されている。
関連論文リスト
- Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection [31.028622674616134]
本稿では,再構成に基づく異常検出フレームワーク,すなわちDianomalyを紹介する。
提案したDinomalyは,3つのデータセットでそれぞれ99.6%,98.7%,89.3%のイメージレベルAUを達成した。
論文 参考訳(メタデータ) (2024-05-23T08:55:20Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection [46.37418710853632]
複雑な設計の現況とTADにおける検出効率の低さを考慮し, 単純で, 単純で, かつ, 必須のベースラインについて検討する。
このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、パイプライン全体にわたってエンドツーエンドのトレーニングを実行することです。
この単純なベーシックTADは、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイムRGB-Onlyベースラインを得る。
論文 参考訳(メタデータ) (2022-05-05T15:42:56Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。