論文の概要: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection
- arxiv url: http://arxiv.org/abs/2310.19070v1
- Date: Sun, 29 Oct 2023 16:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 14:24:35.510943
- Title: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial
Anomaly Detection
- Title(参考訳): Myriad:産業異常検出のためのビジョンエキスパートの適用による大規模マルチモーダルモデル
- Authors: Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Yiwen Guo, Chen Xu,
Guangming Shi, Wangmeng Zuo
- Abstract要約: 産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
- 参考スコア(独自算出の注目度): 82.1714390170549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing industrial anomaly detection (IAD) methods predict anomaly scores
for both anomaly detection and localization. However, they struggle to perform
a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color,
shape, and categories of industrial anomalies. Recently, large multimodal
(i.e., vision and language) models (LMMs) have shown eminent perception
abilities on multiple vision tasks such as image captioning, visual
understanding, visual reasoning, etc., making it a competitive potential choice
for more comprehensible anomaly detection. However, the knowledge about anomaly
detection is absent in existing general LMMs, while training a specific LMM for
anomaly detection requires a tremendous amount of annotated data and massive
computation resources. In this paper, we propose a novel large multi-modal
model by applying vision experts for industrial anomaly detection (dubbed
Myriad), which leads to definite anomaly detection and high-quality anomaly
description. Specifically, we adopt MiniGPT-4 as the base LMM and design an
Expert Perception module to embed the prior knowledge from vision experts as
tokens which are intelligible to Large Language Models (LLMs). To compensate
for the errors and confusions of vision experts, we introduce a domain adapter
to bridge the visual representation gaps between generic and industrial images.
Furthermore, we propose a Vision Expert Instructor, which enables the Q-Former
to generate IAD domain vision-language tokens according to vision expert prior.
Extensive experiments on MVTec-AD and VisA benchmarks demonstrate that our
proposed method not only performs favorably against state-of-the-art methods
under the 1-class and few-shot settings, but also provide definite anomaly
prediction along with detailed descriptions in IAD domain.
- Abstract(参考訳): 既存の産業異常検出(IAD)手法は異常検出と局所化の両方の異常スコアを予測する。
しかし、彼らは多ターンダイアログの実行に苦労し、例えば、色、形状、産業異常のカテゴリなど、異常領域の詳細な記述を行う。
近年,画像キャプションや視覚理解,視覚推論など,複数の視覚課題において,大きなマルチモーダルモデル(すなわち視覚言語モデル(lmms))が有意な知覚能力を示し,より理解可能な異常検出のための競争的選択肢となっている。
しかし、既存の一般LMMでは異常検出に関する知識が欠如しているが、異常検出のために特定のLMMを訓練するには大量の注釈付きデータと膨大な計算資源が必要である。
本稿では,産業的異常検出のための視覚専門家(dubbed myriad)を応用した,新しい大規模マルチモーダルモデルを提案する。
具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLMs) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。
視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
さらに,視覚エキスパートに先立って,q-formerがiadドメイン視覚言語トークンを生成できる視覚エキスパートインストラクターを提案する。
MVTec-AD と VisA ベンチマークの大規模な実験により,提案手法は1クラスおよび少数ショット設定下での最先端の手法に対して良好に機能するだけでなく,IAD ドメインの詳細な記述とともに,一定の異常予測を提供することを示した。
関連論文リスト
- Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Toward Generalist Anomaly Detection via In-context Residual Learning
with Few-shot Sample Prompts [30.278418852521344]
Generalist Anomaly Detection (GAD)は、ターゲットデータにさらなるトレーニングを加えることなく、異なるアプリケーションドメインからさまざまなデータセットの異常を検出するために一般化可能な、単一の検出モデルをトレーニングすることを目的としている。
InCTRLと呼ばれるGADのための文脈内残差学習モデルを学習する新しい手法を提案する。
クエリ画像と数発のサンプルプロンプト間の残差の全体的評価に基づいて、通常のサンプルから異常を識別する補助データセットを用いて訓練する。
論文 参考訳(メタデータ) (2024-03-11T08:07:46Z) - Weakly Supervised Anomaly Detection via Knowledge-Data Alignment [24.125871437370357]
マルウェア検出、マネーロンダリング、デバイス障害検出、ネットワーク障害解析など、多数のWebベースのアプリケーションにおいて、異常検出が重要な役割を果たす。
Weakly Supervised Anomaly Detection (WSAD) が導入された。
本稿では,ルール知識を統合するための知識データアライメント(KDAlign)について紹介する。
論文 参考訳(メタデータ) (2024-02-06T07:57:13Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead [7.832745838520855]
本研究では,視覚言語モデルであるGPT-4Vを用いて,異常検出タスクを汎用的に処理する手法を提案する。
画像,ビデオ,ポイントクラウド,時系列データなど,マルチモダリティ,マルチドメイン異常検出タスクにおけるGPT-4Vについて検討する。
GPT-4Vは、ゼロ/ワンショット異常検出において、大域的および微粒なセマンティックパターンを検出し、説明するのに非常に効果的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-05T22:13:12Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。