論文の概要: Automatic Prompt Generation and Grounding Object Detection for Zero-Shot Image Anomaly Detection
- arxiv url: http://arxiv.org/abs/2411.19220v1
- Date: Thu, 28 Nov 2024 15:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:07.855812
- Title: Automatic Prompt Generation and Grounding Object Detection for Zero-Shot Image Anomaly Detection
- Title(参考訳): ゼロショット画像異常検出のためのプロンプト生成と接地対象検出
- Authors: Tsun-Hin Cheung, Ka-Chun Fung, Songjiang Lai, Kwan-Ho Lin, Vincent Ng, Kin-Man Lam,
- Abstract要約: マルチモーダル機械学習パイプラインを用いた産業画像の自動異常検出のためのゼロショットトレーニングフリーアプローチを提案する。
提案モデルにより, 工業生産環境における効率, スケーラブル, 客観的品質管理が可能となる。
- 参考スコア(独自算出の注目度): 17.06832015516288
- License:
- Abstract: Identifying defects and anomalies in industrial products is a critical quality control task. Traditional manual inspection methods are slow, subjective, and error-prone. In this work, we propose a novel zero-shot training-free approach for automated industrial image anomaly detection using a multimodal machine learning pipeline, consisting of three foundation models. Our method first uses a large language model, i.e., GPT-3. generate text prompts describing the expected appearances of normal and abnormal products. We then use a grounding object detection model, called Grounding DINO, to locate the product in the image. Finally, we compare the cropped product image patches to the generated prompts using a zero-shot image-text matching model, called CLIP, to identify any anomalies. Our experiments on two datasets of industrial product images, namely MVTec-AD and VisA, demonstrate the effectiveness of this method, achieving high accuracy in detecting various types of defects and anomalies without the need for model training. Our proposed model enables efficient, scalable, and objective quality control in industrial manufacturing settings.
- Abstract(参考訳): 工業製品における欠陥や異常の特定は品質管理の重要な課題である。
従来の手動検査手法は遅く、主観的で、エラーを起こしやすい。
本研究では,3つの基礎モデルからなるマルチモーダル機械学習パイプラインを用いて,産業画像の自動異常検出のためのゼロショット学習自由アプローチを提案する。
提案手法はまず,大規模言語モデル,すなわち GPT-3 を用いる。
正常な製品と異常な製品の出現を記述したテキストプロンプトを生成する。
次に、Grounding DINOと呼ばれるグラウンドオブジェクト検出モデルを使用して、画像中の製品を見つける。
最後に、収集した製品イメージパッチと、CLIPと呼ばれるゼロショット画像テキストマッチングモデルを用いて生成されたプロンプトを比較し、異常を識別する。
産業製品画像の2つのデータセットであるMVTec-ADとVisAを用いた実験により, モデルトレーニングを必要とせず, 種々の欠陥や異常を検出する精度が向上した。
提案モデルにより, 工業生産環境における効率, スケーラブル, 客観的品質管理が可能となる。
関連論文リスト
- DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
そして、学習したアーティファクト検出器を第2段階に巻き込み、各画像に画素ごとの信頼マップを割り当てて拡散モデルをチューニングする。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Evaluating Vision Transformer Models for Visual Quality Control in Industrial Manufacturing [0.0]
工業生産における機械学習の最も有望なユースケースの1つは、欠陥のある製品の早期発見である。
我々は、異常検出手法とともに、現在の視覚変換器モデルを評価する。
品質管理システムに適したモデルアーキテクチャを実際に選択するためのガイドラインを提示する。
論文 参考訳(メタデータ) (2024-11-22T14:12:35Z) - FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。
視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。
FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-31T23:05:56Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Voxel-wise classification for porosity investigation of additive
manufactured parts with 3D unsupervised and (deeply) supervised neural
networks [5.467497693327066]
本研究は,X-CT画像からのAMサンプルの容積解析のための最近の教師付き (UNet, UNet++, UNet 3+, MSS-UNet) と教師なし (VAE, ceVAE, gmVAE, vqVAE) DLモデルを再検討する。
3次元入力データを3次元パッチパイプラインで受け入れるように拡張し、計算要求を低くし、効率と一般化性を改善した。
VAE/ceVAEモデルは、特に後処理技術を利用した場合、優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-13T11:23:00Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Semi-Siamese Network for Robust Change Detection Across Different
Domains with Applications to 3D Printing [17.176767333354636]
本稿では3Dプリンティングプロセスにおける欠陥検出のための新しいセミ・シームズ深層学習モデルを提案する。
本モデルは,撮像装置の摂動に対して頑健でありながら,異なる領域からの異種画像の比較を可能にするように設計されている。
われわれのモデルでは、欠陥ローカライズ予測は標準のMacBook Proを使って1層あたり半秒未満で行うことができ、F1スコアは0.9以上である。
論文 参考訳(メタデータ) (2022-12-16T17:02:55Z) - Reference-based Defect Detection Network [57.89399576743665]
最初の問題はテクスチャシフトであり、これはトレーニングされた欠陥検出モデルが目に見えないテクスチャの影響を受けやすいことを意味する。
第2の問題は部分的な視覚的混乱であり、部分的な欠陥ボックスが完全なボックスと視覚的に類似していることを示している。
本稿では,これら2つの問題に対処する参照型欠陥検出ネットワーク(RDDN)を提案する。
論文 参考訳(メタデータ) (2021-08-10T05:44:23Z) - Computer Vision and Normalizing Flow Based Defect Detection [0.0]
本稿では,オブジェクト検出モデルYOLOとフローベース欠陥検出モデルDifferNetに基づく2段階欠陥検出ネットワークを提案する。
本モデルは,生産ライン監視システムから撮影した実世界のビデオクリップを用いた欠陥検出において,高い堅牢性と性能を有する。
提案モデルでは,単一製品や複数製品の欠陥のない少数のサンプルを学習できる。
論文 参考訳(メタデータ) (2020-12-12T05:38:21Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。