論文の概要: Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble
- arxiv url: http://arxiv.org/abs/2403.04932v2
- Date: Mon, 8 Apr 2024 19:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:17:55.333976
- Title: Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble
- Title(参考訳): ディバイドとコンカー:メモリ効率の良いタイドアンサンブルによる高分解能産業異常検出
- Authors: Blaž Rolih, Dick Ameln, Ashwin Vaidya, Samet Akcay,
- Abstract要約: 産業異常検出はコンピュータビジョンにおける重要な課題である。
多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。
入力画像をタイルのグリッドに分割し,各タイル位置の専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial anomaly detection is an important task within computer vision with a wide range of practical use cases. The small size of anomalous regions in many real-world datasets necessitates processing the images at a high resolution. This frequently poses significant challenges concerning memory consumption during the model training and inference stages, leaving some existing methods impractical for widespread adoption. To overcome this challenge, we present the tiled ensemble approach, which reduces memory consumption by dividing the input images into a grid of tiles and training a dedicated model for each tile location. The tiled ensemble is compatible with any existing anomaly detection model without the need for any modification of the underlying architecture. By introducing overlapping tiles, we utilize the benefits of traditional stacking ensembles, leading to further improvements in anomaly detection capabilities beyond high resolution alone. We perform a comprehensive analysis using diverse underlying architectures, including Padim, PatchCore, FastFlow, and Reverse Distillation, on two standard anomaly detection datasets: MVTec and VisA. Our method demonstrates a notable improvement across setups while remaining within GPU memory constraints, consuming only as much GPU memory as a single model needs to process a single tile.
- Abstract(参考訳): 産業的異常検出はコンピュータビジョンにおける重要な課題であり、幅広い実用的なユースケースがある。
多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。
これはしばしば、モデルトレーニングと推論段階でのメモリ消費に関する重大な問題を引き起こし、既存のメソッドは広く採用するには実用的でない。
この課題を克服するために,入力画像をタイルのグリッドに分割し,タイル位置ごとに専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。
タイル付きアンサンブルは、基盤となるアーキテクチャを変更することなく既存の異常検出モデルと互換性がある。
重なり合うタイルを導入することで、従来の積み重ねアンサンブルの利点を生かし、高解像度以外の異常検出能力をさらに改善する。
我々は、MVTecとVisAという2つの標準異常検出データセット上で、Padim、PatchCore、FastFlow、Reverse Distillationを含むさまざまな基盤アーキテクチャを使用して包括的な分析を行う。
提案手法は,GPUメモリ制約内に留まり,単一のモデルで1つのタイルを処理するために必要なGPUメモリだけを消費しながら,セットアップ全体の顕著な改善を実証する。
関連論文リスト
- Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。
本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文 参考訳(メタデータ) (2024-05-19T04:57:17Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - Masked Transformer for image Anomaly Localization [14.455765147827345]
パッチマスキングを用いたビジョントランスフォーマーアーキテクチャに基づく画像異常検出のための新しいモデルを提案する。
マルチレゾリューションパッチとその集合埋め込みは,モデルの性能を大幅に向上させることを示す。
提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされている。
論文 参考訳(メタデータ) (2022-10-27T15:30:48Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Sci-Net: a Scale Invariant Model for Building Detection from Aerial
Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。
具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文 参考訳(メタデータ) (2021-11-12T16:45:20Z) - Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection [24.0966076588569]
欠陥部分の画像サンプルを必要とせずに自動欠陥検出の問題に取り組む。
本稿では,異なるスケールの複数の特徴写像を共同で処理する,完全畳み込み型クロススケール正規化フロー(CS-Flow)を提案する。
ベンチマークデータセットであるMagnetic Tile DefectsとMVTec ADは、15クラス中4クラスで100%AUROCを示す。
論文 参考訳(メタデータ) (2021-10-06T15:35:13Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and
Localization [64.39761523935613]
本稿では,画像中の異常を同時検出・ローカライズするPatch Distribution Modeling, PaDiMを提案する。
PaDiMは、パッチの埋め込みに事前訓練された畳み込みニューラルネットワーク(CNN)を使用している。
また、CNNの異なるセマンティックレベル間の相関を利用して、異常のローカライズも改善している。
論文 参考訳(メタデータ) (2020-11-17T17:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。