論文の概要: Towards Zero-shot Point Cloud Anomaly Detection: A Multi-View Projection Framework
- arxiv url: http://arxiv.org/abs/2409.13162v1
- Date: Fri, 20 Sep 2024 02:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:41:13.321133
- Title: Towards Zero-shot Point Cloud Anomaly Detection: A Multi-View Projection Framework
- Title(参考訳): Zero-shot Point Cloud Anomaly Detectionに向けて:マルチビュープロジェクションフレームワーク
- Authors: Yuqi Cheng, Yunkang Cao, Guoyang Xie, Zhichao Lu, Weiming Shen,
- Abstract要約: 我々は、事前訓練されたビジョンランゲージモデル(VLM)を利用して異常を検出する、Multi-View Projection(MVP)フレームワークを紹介する。
MVPは、クラウドデータをマルチビューの深度イメージに投影することで、ポイントクラウド異常検出をイメージ異常検出に変換する。
本稿では、これらのVLMを微調整するための学習可能な視覚的および適応的テキストプロンプトの統合を提案する。
- 参考スコア(独自算出の注目度): 11.576062442738273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting anomalies within point clouds is crucial for various industrial applications, but traditional unsupervised methods face challenges due to data acquisition costs, early-stage production constraints, and limited generalization across product categories. To overcome these challenges, we introduce the Multi-View Projection (MVP) framework, leveraging pre-trained Vision-Language Models (VLMs) to detect anomalies. Specifically, MVP projects point cloud data into multi-view depth images, thereby translating point cloud anomaly detection into image anomaly detection. Following zero-shot image anomaly detection methods, pre-trained VLMs are utilized to detect anomalies on these depth images. Given that pre-trained VLMs are not inherently tailored for zero-shot point cloud anomaly detection and may lack specificity, we propose the integration of learnable visual and adaptive text prompting techniques to fine-tune these VLMs, thereby enhancing their detection performance. Extensive experiments on the MVTec 3D-AD and Real3D-AD demonstrate our proposed MVP framework's superior zero-shot anomaly detection performance and the prompting techniques' effectiveness. Real-world evaluations on automotive plastic part inspection further showcase that the proposed method can also be generalized to practical unseen scenarios. The code is available at https://github.com/hustCYQ/MVP-PCLIP.
- Abstract(参考訳): ポイントクラウド内の異常を検出することは、様々な産業アプリケーションにとって重要であるが、従来の教師なしの手法は、データ取得コスト、初期生産制約、製品カテゴリ間の限定的な一般化による課題に直面している。
これらの課題を克服するために、トレーニング済みのビジョンランゲージモデル(VLM)を利用して異常を検出する、Multi-View Projection(MVP)フレームワークを導入する。
具体的には、MVPは、クラウドデータを多視点深度画像に向けることで、ポイントクラウド異常検出をイメージ異常検出に変換する。
ゼロショット画像異常検出法に続いて、予め訓練したVLMを用いて、これらの深度画像上の異常を検出する。
事前学習されたVLMは、本質的にゼロショット点雲異常検出に適合せず、特異性に欠ける可能性があることを考慮し、これらのVLMを微調整するための学習可能な視覚的および適応的テキストプロンプト技術の統合を提案し、その検出性能を向上させる。
MVTec 3D-ADとReal3D-ADの広範囲な実験により,提案するMVPフレームワークの優れたゼロショット異常検出性能と高速化技術の有効性が実証された。
自動車用プラスチック部品の検査における実世界の評価は,提案手法が実用上の見当たらないシナリオにも一般化可能であることをさらに示している。
コードはhttps://github.com/hustCYQ/MVP-PCLIPで入手できる。
関連論文リスト
- Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection [88.34095233600719]
FAPromptは、より正確なZSADのためにきめ細かい異常プロンプトを学習するために設計された新しいフレームワークである。
画像レベルおよび画素レベルのZSADタスクにおいて、最先端の手法を少なくとも3%-5%のAUC/APで大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-14T08:41:31Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。
視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。
FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-31T23:05:56Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z) - Same Same But DifferNet: Semi-Supervised Defect Detection with
Normalizing Flows [24.734388664558708]
畳み込みニューラルネットワークによって抽出された特徴の記述性を利用して、その密度を推定する。
これらの可能性に基づいて、欠陥を示すスコアリング関数を開発する。
本稿では,新しいMVTec ADとMagnetic Tile Defectsデータセットに対する既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-28T10:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。