Fugu-MT 論文翻訳(概要): Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble

論文の概要: Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble

arxiv url: http://arxiv.org/abs/2403.04932v1
Date: Thu, 7 Mar 2024 22:39:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:36:44.443514
Title: Divide and Conquer: High-Resolution Industrial Anomaly Detection via Memory Efficient Tiled Ensemble
Title（参考訳）: 分割と克服:メモリ効率のよいタイルアンサンブルによる高分解能産業異常検出
Authors: Bla\v{z} Rolih, Samet Ak\c{c}ay, Dick Ameln, Ashwin Vaidya
Abstract要約: 産業異常検出はコンピュータビジョンにおける重要な課題である。多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。入力画像をタイルのグリッドに分割し,各タイル位置の専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Industrial anomaly detection is an important task within computer vision with a wide range of practical use cases. The small size of anomalous regions in many real-world datasets necessitates processing the images at a high resolution. This frequently poses significant challenges concerning memory consumption during the model training and inference stages, leaving some existing methods impractical for widespread adoption. To overcome this challenge, we present the tiled ensemble approach, which reduces memory consumption by dividing the input images into a grid of tiles and training a dedicated model for each tile location. The tiled ensemble is compatible with any existing anomaly detection model without the need for any modification of the underlying architecture. By introducing overlapping tiles, we utilize the benefits of traditional stacking ensembles, leading to further improvements in anomaly detection capabilities beyond high resolution alone. We perform a comprehensive analysis using diverse underlying architectures, including Padim, PatchCore, FastFlow, and Reverse Distillation, on two standard anomaly detection datasets: MVTec and VisA. Our method demonstrates a notable improvement across setups while remaining within GPU memory constraints, consuming only as much GPU memory as a single model needs to process a single tile.
Abstract（参考訳）: 産業的異常検出はコンピュータビジョンにおける重要な課題であり、幅広い応用事例がある。多くの実世界のデータセットにおける異常領域の小さなサイズは、高解像度で画像を処理する必要がある。これはしばしば、モデルトレーニングと推論段階でのメモリ消費に関する重大な問題を引き起こし、既存のメソッドは広く採用するには実用的でない。この課題を克服するために,入力画像をタイルのグリッドに分割し,タイル位置ごとに専用モデルをトレーニングすることにより,メモリ消費を低減するタイルアンサンブル方式を提案する。タイル付きアンサンブルは、基盤となるアーキテクチャを変更することなく既存の異常検出モデルと互換性がある。重なり合うタイルを導入することで,従来の積み重ねアンサンブルの利点を生かして,高分解能以上の異常検出能力がさらに向上した。我々はmvtecとvisaという2つの標準異常検出データセット上で,padim,patchcore,fastflow,reverse distillationなどの多様なアーキテクチャを用いて包括的な分析を行う。提案手法は,GPUメモリ制約内に留まり,単一のモデルで1つのタイルを処理するために必要なGPUメモリだけを消費しながら,セットアップ全体の顕著な改善を示す。

関連論文リスト

Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal [8.464291713830127]
MZNetは,モアレパターンを効果的に除去し,モアレゼロ状態に画像が近づくように設計されたU字型ネットワークである。 MZNetは高解像度データセットで最先端のパフォーマンスを達成し、低解像度データセットで競合結果を提供する。
論文参考訳（メタデータ） (2025-07-30T06:16:35Z)
Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。 RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文参考訳（メタデータ） (2024-07-18T10:26:53Z)
Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文参考訳（メタデータ） (2024-05-19T04:57:17Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
Dual Memory Units with Uncertainty Regulation for Weakly Supervised Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2023-02-10T10:39:40Z)
Masked Transformer for image Anomaly Localization [14.455765147827345]
パッチマスキングを用いたビジョントランスフォーマーアーキテクチャに基づく画像異常検出のための新しいモデルを提案する。マルチレゾリューションパッチとその集合埋め込みは,モデルの性能を大幅に向上させることを示す。提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされている。
論文参考訳（メタデータ） (2022-10-27T15:30:48Z)
Object-centric and memory-guided normality reconstruction for video anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文参考訳（メタデータ） (2022-03-07T19:28:39Z)
Sci-Net: a Scale Invariant Model for Building Detection from Aerial Images [0.0]
本研究では,空間分解能の異なる空間画像に存在している建物を分割できるスケール不変ニューラルネットワーク(Sci-Net)を提案する。具体的には,U-Netアーキテクチャを改良し,それを高密度なASPP(Atrous Space Pyramid Pooling)で融合し,微細なマルチスケール表現を抽出した。
論文参考訳（メタデータ） (2021-11-12T16:45:20Z)
Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection [24.0966076588569]
欠陥部分の画像サンプルを必要とせずに自動欠陥検出の問題に取り組む。本稿では,異なるスケールの複数の特徴写像を共同で処理する,完全畳み込み型クロススケール正規化フロー(CS-Flow)を提案する。ベンチマークデータセットであるMagnetic Tile DefectsとMVTec ADは、15クラス中4クラスで100%AUROCを示す。
論文参考訳（メタデータ） (2021-10-06T15:35:13Z)
Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文参考訳（メタデータ） (2021-09-14T12:53:35Z)
CutPaste: Self-Supervised Learning for Anomaly Detection and Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文参考訳（メタデータ） (2021-04-08T19:04:55Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)
PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization [64.39761523935613]
本稿では,画像中の異常を同時検出・ローカライズするPatch Distribution Modeling, PaDiMを提案する。 PaDiMは、パッチの埋め込みに事前訓練された畳み込みニューラルネットワーク(CNN)を使用している。また、CNNの異なるセマンティックレベル間の相関を利用して、異常のローカライズも改善している。
論文参考訳（メタデータ） (2020-11-17T17:29:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。