論文の概要: TAB: Text-Align Anomaly Backbone Model for Industrial Inspection Tasks
- arxiv url: http://arxiv.org/abs/2312.09480v1
- Date: Fri, 15 Dec 2023 01:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:38:26.227175
- Title: TAB: Text-Align Anomaly Backbone Model for Industrial Inspection Tasks
- Title(参考訳): TAB:産業検査作業におけるテキストアラインな異常バックボーンモデル
- Authors: Ho-Weng Lee, Shang-Hong Lai
- Abstract要約: 本稿では,製造領域に適したバックボーンモデルを十分に訓練するための新しい枠組みを提案する。
本手法では,正常な状態と異常な状態に対する視覚的,テキスト的に整列した埋め込み空間を同時に検討する。
その結果、事前訓練されたバックボーンは、工業的な下流タスクのパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 12.660226544498023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the focus on anomaly detection and localization in
industrial inspection tasks has intensified. While existing studies have
demonstrated impressive outcomes, they often rely heavily on extensive training
datasets or robust features extracted from pre-trained models trained on
diverse datasets like ImageNet. In this work, we propose a novel framework
leveraging the visual-linguistic CLIP model to adeptly train a backbone model
tailored to the manufacturing domain. Our approach concurrently considers
visual and text-aligned embedding spaces for normal and abnormal conditions.
The resulting pre-trained backbone markedly enhances performance in industrial
downstream tasks, particularly in anomaly detection and localization. Notably,
this improvement is substantiated through experiments conducted on multiple
datasets such as MVTecAD, BTAD, and KSDD2. Furthermore, using our pre-trained
backbone weights allows previous works to achieve superior performance in
few-shot scenarios with less training data. The proposed anomaly backbone
provides a foundation model for more precise anomaly detection and
localization.
- Abstract(参考訳): 近年,産業検査作業における異常検出と局所化に焦点が当てられている。
既存の研究は印象的な結果を示しているが、ImageNetのような多様なデータセットでトレーニングされたトレーニング済みモデルから抽出された広範なトレーニングデータセットや堅牢な機能に大きく依存することが多い。
本研究では,視覚言語クリップモデルを用いて,製造領域に合わせたバックボーンモデルを適切にトレーニングする新しいフレームワークを提案する。
本手法は,正常および異常な条件下での視覚空間とテキストアライメント埋め込み空間を同時に考慮する。
その結果、トレーニング済みのバックボーンは、特に異常検出とローカライゼーションにおいて、工業的な下流タスクのパフォーマンスを著しく向上させる。
特に、この改善はMVTecAD、BTAD、KSDD2といった複数のデータセットで実施された実験を通じて裏付けられている。
さらに、事前トレーニングされたバックボーン重みを用いることで、トレーニングデータが少なく、わずかなシナリオでも優れたパフォーマンスを実現できます。
提案した異常バックボーンは、より正確な異常検出と局所化のための基礎モデルを提供する。
関連論文リスト
- Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition [4.192370959537781]
本稿では,ラベル付きデータに制限のある下流タスクにおいて,事前学習した基礎モデルの性能向上を目的とした半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-10-02T22:36:12Z) - Fractals as Pre-training Datasets for Anomaly Detection and Localization [0.0]
異常検出は、欠陥部分の検出とローカライズを支援するため、大規模製造業において不可欠である。
大規模データセットの事前トレーニング機能抽出は、このタスクの一般的なアプローチである。
動的に生成されたフラクタル画像を用いて事前学習した8つの最先端手法の性能を評価する。
論文 参考訳(メタデータ) (2024-05-11T10:35:42Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Log-based Anomaly Detection of Enterprise Software: An Empirical Study [0.0]
研究パートナーから得られた産業データセットから最先端の異常検出モデルをいくつか評価した。
結果は、全てのモデルが異常を検出することができるが、一部のモデルはより構造化されていないデータセットに適していることを示している。
論文 参考訳(メタデータ) (2023-10-31T14:32:08Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。