論文の概要: Towards Training-free Anomaly Detection with Vision and Language Foundation Models
- arxiv url: http://arxiv.org/abs/2503.18325v1
- Date: Mon, 24 Mar 2025 04:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:18.760819
- Title: Towards Training-free Anomaly Detection with Vision and Language Foundation Models
- Title(参考訳): 視覚モデルと言語基礎モデルを用いた学習不要な異常検出に向けて
- Authors: Jinjin Zhang, Guodong Wang, Yizhou Jin, Di Huang,
- Abstract要約: 異常検出は、産業品質検査のような現実世界の応用に有用である。
論理的および構造的異常検出のトレーニングを必要としない新しいマルチモーダルフレームワークであるLogSADを紹介する。
- 参考スコア(独自算出の注目度): 17.991678161890174
- License:
- Abstract: Anomaly detection is valuable for real-world applications, such as industrial quality inspection. However, most approaches focus on detecting local structural anomalies while neglecting compositional anomalies incorporating logical constraints. In this paper, we introduce LogSAD, a novel multi-modal framework that requires no training for both Logical and Structural Anomaly Detection. First, we propose a match-of-thought architecture that employs advanced large multi-modal models (i.e. GPT-4V) to generate matching proposals, formulating interests and compositional rules of thought for anomaly detection. Second, we elaborate on multi-granularity anomaly detection, consisting of patch tokens, sets of interests, and composition matching with vision and language foundation models. Subsequently, we present a calibration module to align anomaly scores from different detectors, followed by integration strategies for the final decision. Consequently, our approach addresses both logical and structural anomaly detection within a unified framework and achieves state-of-the-art results without the need for training, even when compared to supervised approaches, highlighting its robustness and effectiveness. Code is available at https://github.com/zhang0jhon/LogSAD.
- Abstract(参考訳): 異常検出は、産業品質検査のような現実世界の応用に有用である。
しかし、ほとんどのアプローチは、論理的制約を取り入れた構成的異常を無視しながら、局所的な構造的異常を検出することに重点を置いている。
本稿では,ロジカルおよび構造異常検出のトレーニングを必要としない新しいマルチモーダルフレームワークであるLogSADを紹介する。
まず,高度な大規模マルチモーダルモデル(GPT-4V)を用いて,一致した提案の生成,関心の定式化,異常検出のための思考構成規則を提案する。
第二に、パッチトークン、興味の集合、および視覚および言語基盤モデルとの合成マッチングからなる多粒度異常検出について詳しく述べる。
その後、異なる検出器からの異常スコアを調整するための校正モジュールを提示し、さらに最終決定のための統合戦略を提示する。
その結果,本手法は統一されたフレームワーク内での論理的および構造的異常検出に対処し,教師付きアプローチと比較して訓練を必要とせず,その堅牢性と有効性を強調した。
コードはhttps://github.com/zhang0jhon/LogSAD.comで入手できる。
関連論文リスト
- Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - AAD-LLM: Adaptive Anomaly Detection Using Large Language Models [35.286105732902065]
本研究は,Large Language Models (LLMs) を利用した異常検出モデルの伝達性の向上を目的とする。
この研究はまた、モデルとプラントオペレーターの間でより協調的な意思決定を可能にすることを目指している。
論文 参考訳(メタデータ) (2024-11-01T13:43:28Z) - Revisiting Deep Feature Reconstruction for Logical and Structural Industrial Anomaly Detection [2.3020018305241337]
産業異常検出は品質管理と予測維持に不可欠である。
既存の手法では、深層学習ネットワークから抽出された画像パッチから複数スケールの特徴を活用することで、デントやスクラッチなどの構造異常を一般的に検出する。
構造異常を検出するためのメモリと計算効率のよいアプローチであるDeep Feature Restruction (DFR) に注目し,これらの制約に対処する。
我々はさらに、DFRをUDSADと呼ばれる統一されたフレームワークに拡張し、構造的および論理的異常の両方を検出する。
論文 参考訳(メタデータ) (2024-10-21T17:56:47Z) - GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features [68.14842693208465]
GeneralADは、意味的、ほぼ分布的、産業的設定で動作するように設計された異常検出フレームワークである。
本稿では,ノイズ付加やシャッフルなどの簡単な操作を施した自己教師付き異常生成モジュールを提案する。
提案手法を10のデータセットに対して広範囲に評価し,6つの実験結果と,残りの6つの実験結果を得た。
論文 参考訳(メタデータ) (2024-07-17T09:27:41Z) - Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning [3.2331030725755645]
複数のシナリオに適用可能な一般的な異常検出モデルを開発する。
本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。
予備研究は,視覚と言語の組み合わせが,モデルをカスタマイズする条件として,異常検出性能を高めることを実証した。
論文 参考訳(メタデータ) (2024-03-17T04:30:57Z) - Generating and Reweighting Dense Contrastive Patterns for Unsupervised
Anomaly Detection [59.34318192698142]
我々は、先行のない異常発生パラダイムを導入し、GRADと呼ばれる革新的な教師なし異常検出フレームワークを開発した。
PatchDiffは、様々な種類の異常パターンを効果的に公開する。
MVTec ADとMVTec LOCOデータセットの両方の実験も、前述の観測をサポートする。
論文 参考訳(メタデータ) (2023-12-26T07:08:06Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Component-aware anomaly detection framework for adjustable and logical
industrial visual inspection [4.444590838289701]
我々は新しいコンポーネント認識異常検出フレームワーク(ComAD)を提案する。
産業シナリオに対する調整可能かつ論理的異常検出を同時に達成することができる。
本フレームワークは,画像レベルの論理異常検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-15T10:18:52Z) - Learning Global-Local Correspondence with Semantic Bottleneck for
Logical Anomaly Detection [6.553276620691242]
本稿では,論理的制約を伴う視覚異常検出のためのGlobal-Local Cor correspondingence Framework (GLCF) という新しいフレームワークを提案する。
視覚異常検出は、産業的異常検出や医学的疾患の診断など、様々な現実世界の応用において活発な研究領域となっている。
論文 参考訳(メタデータ) (2023-03-10T08:09:40Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。