論文の概要: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2310.19070v2
- Date: Wed, 1 Nov 2023 03:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 10:49:12.201298
- Title: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection
- Title(参考訳): Myriad:産業異常検出のためのビジョンエキスパートの適用による大規模マルチモーダルモデル
- Authors: Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Debin Zhao, Yiwen Guo,
Chen Xu, Guangming Shi, Wangmeng Zuo
- Abstract要約: 産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
- 参考スコア(独自算出の注目度): 89.49244928440221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing industrial anomaly detection (IAD) methods predict anomaly scores
for both anomaly detection and localization. However, they struggle to perform
a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color,
shape, and categories of industrial anomalies. Recently, large multimodal
(i.e., vision and language) models (LMMs) have shown eminent perception
abilities on multiple vision tasks such as image captioning, visual
understanding, visual reasoning, etc., making it a competitive potential choice
for more comprehensible anomaly detection. However, the knowledge about anomaly
detection is absent in existing general LMMs, while training a specific LMM for
anomaly detection requires a tremendous amount of annotated data and massive
computation resources. In this paper, we propose a novel large multi-modal
model by applying vision experts for industrial anomaly detection (dubbed
Myriad), which leads to definite anomaly detection and high-quality anomaly
description. Specifically, we adopt MiniGPT-4 as the base LMM and design an
Expert Perception module to embed the prior knowledge from vision experts as
tokens which are intelligible to Large Language Models (LLMs). To compensate
for the errors and confusions of vision experts, we introduce a domain adapter
to bridge the visual representation gaps between generic and industrial images.
Furthermore, we propose a Vision Expert Instructor, which enables the Q-Former
to generate IAD domain vision-language tokens according to vision expert prior.
Extensive experiments on MVTec-AD and VisA benchmarks demonstrate that our
proposed method not only performs favorably against state-of-the-art methods
under the 1-class and few-shot settings, but also provide definite anomaly
prediction along with detailed descriptions in IAD domain.
- Abstract(参考訳): 既存の産業異常検出(IAD)手法は異常検出と局所化の両方の異常スコアを予測する。
しかし、彼らは多ターンダイアログの実行に苦労し、例えば、色、形状、産業異常のカテゴリなど、異常領域の詳細な記述を行う。
近年,画像キャプションや視覚理解,視覚推論など,複数の視覚課題において,大きなマルチモーダルモデル(すなわち視覚言語モデル(lmms))が有意な知覚能力を示し,より理解可能な異常検出のための競争的選択肢となっている。
しかし、既存の一般LMMでは異常検出に関する知識が欠如しているが、異常検出のために特定のLMMを訓練するには大量の注釈付きデータと膨大な計算資源が必要である。
本稿では,産業的異常検出のための視覚専門家(dubbed myriad)を応用した,新しい大規模マルチモーダルモデルを提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLMs) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
さらに,視覚エキスパートに先立って,q-formerがiadドメイン視覚言語トークンを生成できる視覚エキスパートインストラクターを提案する。
MVTec-AD と VisA ベンチマークの大規模な実験により,提案手法は1クラスおよび少数ショット設定下での最先端の手法に対して良好に機能するだけでなく,IAD ドメインの詳細な記述とともに,一定の異常予測を提供することを示した。
関連論文リスト
- ATAC-Net: Zoomed view works better for Anomaly Detection [1.024113475677323]
ATAC-Netは、既知の最小限の事前異常から異常を検出する訓練を行うフレームワークである。
我々は、その優位性を、同等の設定で現在の最先端技術と比較する。
論文 参考訳(メタデータ) (2024-06-20T15:18:32Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - ADer: A Comprehensive Benchmark for Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい異常検出手法のモジュラーフレームワークであるtextbftextitADerを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning [3.2331030725755645]
複数のシナリオに適用可能な一般的な異常検出モデルを開発する。
本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。
予備研究は,視覚と言語の組み合わせが,モデルをカスタマイズする条件として,異常検出性能を高めることを実証した。
論文 参考訳(メタデータ) (2024-03-17T04:30:57Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts [25.629973843455495]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、さまざまなアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
InCTRLは最高のパフォーマーであり、最先端の競合手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。