論文の概要: Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2403.11083v1
- Date: Sun, 17 Mar 2024 04:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:17:05.944258
- Title: Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning
- Title(参考訳): マルチモーダル異常検出・推論のための視覚言語基礎モデルのカスタマイズ
- Authors: Xiaohao Xu, Yunkang Cao, Yongqi Chen, Weiming Shen, Xiaonan Huang,
- Abstract要約: 複数のシナリオに適用可能な一般的な異常検出モデルを開発する。
本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。
予備研究は,視覚と言語の組み合わせが,モデルをカスタマイズする条件として,異常検出性能を高めることを実証した。
- 参考スコア(独自算出の注目度): 3.2331030725755645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Anomaly detection is vital in various industrial scenarios, including the identification of unusual patterns in production lines and the detection of manufacturing defects for quality control. Existing techniques tend to be specialized in individual scenarios and lack generalization capacities. In this study, we aim to develop a generic anomaly detection model applicable across multiple scenarios. To achieve this, we customize generic visual-language foundation models that possess extensive knowledge and robust reasoning abilities into anomaly detectors and reasoners. Specifically, we introduce a multi-modal prompting strategy that incorporates domain knowledge from experts as conditions to guide the models. Our approach considers multi-modal prompt types, including task descriptions, class context, normality rules, and reference images. In addition, we unify the input representation of multi-modality into a 2D image format, enabling multi-modal anomaly detection and reasoning. Our preliminary studies demonstrate that combining visual and language prompts as conditions for customizing the models enhances anomaly detection performance. The customized models showcase the ability to detect anomalies across different data modalities such as images and point clouds. Qualitative case studies further highlight the anomaly detection and reasoning capabilities, particularly for multi-object scenes and temporal data. Our code is available at https://github.com/Xiaohao-Xu/Customizable-VLM.
- Abstract(参考訳): 異常検出は、製造ラインにおける異常パターンの同定や品質管理のための製造欠陥の検出など、様々な産業シナリオにおいて不可欠である。
既存の手法は個々のシナリオに特化しており、一般化能力に欠ける傾向がある。
本研究では,複数のシナリオに適用可能な汎用的異常検出モデルを開発することを目的とする。
これを実現するために,多種多様な知識と頑健な推論能力を有する汎用視覚言語基盤モデルを,異常検出器や推論器にカスタマイズする。
具体的には、エキスパートからのドメイン知識をモデルガイドの条件として組み込んだマルチモーダルプロンプト戦略を導入する。
本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。
さらに、マルチモーダルの入力表現を2次元画像形式に統一し、マルチモーダルな異常検出と推論を可能にする。
予備研究により, 視覚と言語の組み合わせにより, 異常検出性能が向上することが実証された。
カスタマイズされたモデルには、イメージやポイントクラウドなど、さまざまなデータモダリティにわたる異常を検出する機能がある。
定性的なケーススタディは、特に多目的シーンや時間データにおいて、異常検出と推論能力をさらに強調する。
私たちのコードはhttps://github.com/Xiaohao-Xu/Customizable-VLMで公開されています。
関連論文リスト
- A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection [89.49244928440221]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Deep Learning for Time Series Anomaly Detection: A Survey [53.83593870825628]
時系列異常検出は、製造業や医療を含む幅広い研究分野や応用に応用されている。
時系列の大規模かつ複雑なパターンにより、研究者は異常パターンを検出するための特別な深層学習モデルを開発するようになった。
本調査は,ディープラーニングを用いた構造化および総合的時系列異常検出モデルの提供に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-09T22:40:22Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit
Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。
本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。
通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。
NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文 参考訳(メタデータ) (2020-10-15T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。