論文の概要: Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process
- arxiv url: http://arxiv.org/abs/2503.13184v1
- Date: Mon, 17 Mar 2025 13:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:08.807733
- Title: Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process
- Title(参考訳): Triad:ビジョンエキスパート誘導型ビジュアルトケナイザと製造プロセスによるLMMに基づく異常検出の強化
- Authors: Yuanze Li, Shihao Yuan, Haolin Wang, Qizhang Li, Ming Liu, Chen Xu, Guangming Shi, Wangmeng Zuo,
- Abstract要約: LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。
欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。
本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
- 参考スコア(独自算出の注目度): 67.99194145865165
- License:
- Abstract: Although recent methods have tried to introduce large multimodal models (LMMs) into industrial anomaly detection (IAD), their generalization in the IAD field is far inferior to that for general purposes. We summarize the main reasons for this gap into two aspects. On one hand, general-purpose LMMs lack cognition of defects in the visual modality, thereby failing to sufficiently focus on defect areas. Therefore, we propose to modify the AnyRes structure of the LLaVA model, providing the potential anomalous areas identified by existing IAD models to the LMMs. On the other hand, existing methods mainly focus on identifying defects by learning defect patterns or comparing with normal samples, yet they fall short of understanding the causes of these defects. Considering that the generation of defects is closely related to the manufacturing process, we propose a manufacturing-driven IAD paradigm. An instruction-tuning dataset for IAD (InstructIAD) and a data organization approach for Chain-of-Thought with manufacturing (CoT-M) are designed to leverage the manufacturing process for IAD. Based on the above two modifications, we present Triad, a novel LMM-based method incorporating an expert-guided region-of-interest tokenizer and manufacturing process for industrial anomaly detection. Extensive experiments show that our Triad not only demonstrates competitive performance against current LMMs but also achieves further improved accuracy when equipped with manufacturing processes. Source code, training data, and pre-trained models will be publicly available at https://github.com/tzjtatata/Triad.
- Abstract(参考訳): 近年, 大規模マルチモーダルモデル (LMM) を産業異常検出 (IAD) に導入する手法が提案されているが, IAD分野における一般化は一般目的よりもはるかに劣っている。
このギャップの主な理由を2つの側面にまとめる。
一方、汎用LMMは視覚的モダリティの欠陥を認識できないため、欠陥領域に十分に焦点をあてることができない。
そこで,LLaVAモデルのAnyRes構造を改良し,既存のIADモデルによって同定された潜在的な異常領域をLMMに提供することを提案する。
一方、既存の手法は主に欠陥パターンを学習したり、通常のサンプルと比較することで欠陥の特定に重点を置いているが、これらの欠陥の原因を理解するには至っていない。
欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。
IAD(InstructIAD)のためのインストラクションチューニングデータセットと、CoT-M(Chain-of-Thought with Manufacturing)のためのデータ組織アプローチは、IADの製造プロセスを活用するために設計されている。
以上の2つの変更に基づいて,専門家誘導型領域オブ関心トークン化器と産業異常検出のための製造工程を組み込んだ新しいLMM方式であるTriadを提案する。
我々のトライアドは, 現行のLMMと競合する性能を示すだけでなく, 製造工程を組み込んだ場合の精度の向上も図っている。
ソースコード、トレーニングデータ、事前トレーニングされたモデルはhttps://github.com/tzjtatata/Triad.comで公開されている。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DefectTwin: When LLM Meets Digital Twin for Railway Defect Inspection [5.601042583221173]
Digital Twin(DT)は、オブジェクト、プロセス、あるいはシステムがリアルタイム監視、シミュレーション、予測保守のために複製される。
大規模言語モデル(LLM)のような最近の進歩は、従来のAIシステムに革命をもたらし、鉄道欠陥検査などの産業応用においてDTと組み合わせることで、大きな可能性を秘めている。
鉄道における視覚的欠陥と視覚的欠陥の両方を分析するために,マルチモーダル・マルチモデル (M2) LLMベースのAIパイプラインを利用するDefectTwinを紹介した。
論文 参考訳(メタデータ) (2024-08-26T22:32:31Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation [0.0]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出(IAD)は現在も進行中である。
既存の品質制御プロセスは、光学および赤外線イメージングのような高速なインライン検査と高解像度だが時間を要するニアラインキャラクタリゼーション技術を組み合わせている。
IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
論文 参考訳(メタデータ) (2024-05-22T12:08:56Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - SEMI-DiffusionInst: A Diffusion Model Based Approach for Semiconductor
Defect Classification and Segmentation [0.11999555634662631]
この研究は拡散モデルを用いて半導体欠陥パターンを正確に検出し、正確にセグメント化する最初の実演である。
提案手法は,mAP全体のこれまでの成果よりも優れており,ほぼすべての欠陥クラスに対して比較的優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-17T17:53:36Z) - Diversity-Measurable Anomaly Detection [106.07413438216416]
本稿では,再構成の多様性を高めるため,DMAD(Diversity-Measurable Anomaly Detection)フレームワークを提案する。
PDMは基本的に、変形を埋め込みから分離し、最終的な異常スコアをより信頼性を高める。
論文 参考訳(メタデータ) (2023-03-09T05:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。