論文の概要: Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process
- arxiv url: http://arxiv.org/abs/2503.13184v1
- Date: Mon, 17 Mar 2025 13:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.307889
- Title: Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process
- Title(参考訳): Triad:ビジョンエキスパート誘導型ビジュアルトケナイザと製造プロセスによるLMMに基づく異常検出の強化
- Authors: Yuanze Li, Shihao Yuan, Haolin Wang, Qizhang Li, Ming Liu, Chen Xu, Guangming Shi, Wangmeng Zuo,
- Abstract要約: LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。
欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。
本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
- 参考スコア(独自算出の注目度): 67.99194145865165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent methods have tried to introduce large multimodal models (LMMs) into industrial anomaly detection (IAD), their generalization in the IAD field is far inferior to that for general purposes. We summarize the main reasons for this gap into two aspects. On one hand, general-purpose LMMs lack cognition of defects in the visual modality, thereby failing to sufficiently focus on defect areas. Therefore, we propose to modify the AnyRes structure of the LLaVA model, providing the potential anomalous areas identified by existing IAD models to the LMMs. On the other hand, existing methods mainly focus on identifying defects by learning defect patterns or comparing with normal samples, yet they fall short of understanding the causes of these defects. Considering that the generation of defects is closely related to the manufacturing process, we propose a manufacturing-driven IAD paradigm. An instruction-tuning dataset for IAD (InstructIAD) and a data organization approach for Chain-of-Thought with manufacturing (CoT-M) are designed to leverage the manufacturing process for IAD. Based on the above two modifications, we present Triad, a novel LMM-based method incorporating an expert-guided region-of-interest tokenizer and manufacturing process for industrial anomaly detection. Extensive experiments show that our Triad not only demonstrates competitive performance against current LMMs but also achieves further improved accuracy when equipped with manufacturing processes. Source code, training data, and pre-trained models will be publicly available at https://github.com/tzjtatata/Triad.
- Abstract(参考訳): 近年, 大規模マルチモーダルモデル (LMM) を産業異常検出 (IAD) に導入する手法が提案されているが, IAD分野における一般化は一般目的よりもはるかに劣っている。
このギャップの主な理由を2つの側面にまとめる。
一方、汎用LMMは視覚的モダリティの欠陥を認識できないため、欠陥領域に十分に焦点をあてることができない。
そこで,LLaVAモデルのAnyRes構造を改良し,既存のIADモデルによって同定された潜在的な異常領域をLMMに提供することを提案する。
一方、既存の手法は主に欠陥パターンを学習したり、通常のサンプルと比較することで欠陥の特定に重点を置いているが、これらの欠陥の原因を理解するには至っていない。
欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。
IAD(InstructIAD)のためのインストラクションチューニングデータセットと、CoT-M(Chain-of-Thought with Manufacturing)のためのデータ組織アプローチは、IADの製造プロセスを活用するために設計されている。
以上の2つの変更に基づいて,専門家誘導型領域オブ関心トークン化器と産業異常検出のための製造工程を組み込んだ新しいLMM方式であるTriadを提案する。
我々のトライアドは, 現行のLMMと競合する性能を示すだけでなく, 製造工程を組み込んだ場合の精度の向上も図っている。
ソースコード、トレーニングデータ、事前トレーニングされたモデルはhttps://github.com/tzjtatata/Triad.comで公開されている。
関連論文リスト
- LR-IAD:Mask-Free Industrial Anomaly Detection with Logical Reasoning [1.3124513975412255]
産業異常検出(IAD)は欠陥を特定することで製品品質を確保するために重要である。
既存の視覚言語モデル(VLM)とMLLM(Multimodal Large Language Models)はいくつかの制限に対処するが、マスクアノテーションに依存している。
授業の不均衡に対処するために,授業中に稀な欠陥パターンを動的に優先順位付けする報酬関数を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:52:35Z) - AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。
従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。
本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文 参考訳(メタデータ) (2025-04-16T09:48:41Z) - EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。
本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。
私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文 参考訳(メタデータ) (2025-03-18T11:33:29Z) - HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。
提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文 参考訳(メタデータ) (2025-03-12T06:01:05Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation [0.0]
3次元点雲とRGB画像に基づくマルチモーダル産業異常検出(IAD)は現在も進行中である。
既存の品質制御プロセスは、光学および赤外線イメージングのような高速なインライン検査と高解像度だが時間を要するニアラインキャラクタリゼーション技術を組み合わせている。
IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
論文 参考訳(メタデータ) (2024-05-22T12:08:56Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。