Fugu-MT 論文翻訳(概要): Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

論文の概要: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

arxiv url: http://arxiv.org/abs/2310.19070v3
Date: Fri, 17 Jan 2025 06:13:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.395568
Title: Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection
Title（参考訳）: Myriad:産業異常検出のためのビジョンエキスパートの適用による大規模マルチモーダルモデル
Authors: Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Debin Zhao, Yiwen Guo, Chen Xu, Guangming Shi, Wangmeng Zuo,
Abstract要約: 産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
参考スコア（独自算出の注目度）: 86.24898024621008
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the training configuration, traditional industrial anomaly detection (IAD) methods have to train a specific model for each deployment scenario, which is insufficient to meet the requirements of modern design and manufacturing. On the contrary, large multimodal models~(LMMs) have shown eminent generalization ability on various vision tasks, and their perception and comprehension capabilities imply the potential of applying LMMs on IAD tasks. However, we observe that even though the LMMs have abundant knowledge about industrial anomaly detection in the textual domain, the LMMs are unable to leverage the knowledge due to the modality gap between textual and visual domains. To stimulate the relevant knowledge in LMMs and adapt the LMMs towards anomaly detection tasks, we introduce existing IAD methods as vision experts and present a novel large multimodal model applying vision experts for industrial anomaly detection~(abbreviated to {Myriad}). Specifically, we utilize the anomaly map generated by the vision experts as guidance for LMMs, such that the vision model is guided to pay more attention to anomalous regions. Then, the visual features are modulated via an adapter to fit the anomaly detection tasks, which are fed into the language model together with the vision expert guidance and human instructions to generate the final outputs. Extensive experiments are applied on MVTec-AD, VisA, and PCB Bank benchmarks demonstrate that our proposed method not only performs favorably against state-of-the-art methods, but also inherits the flexibility and instruction-following ability of LMMs in the field of IAD. Source code and pre-trained models are publicly available at \url{https://github.com/tzjtatata/Myriad}.
Abstract（参考訳）: トレーニング構成のため、従来の産業異常検出(IAD)手法では、配置シナリオごとに特定のモデルを訓練する必要があるが、現代の設計と製造の要件を満たすには不十分である。逆に、大きなマルチモーダルモデル~(LMM)は、様々な視覚タスクにおいて顕著な一般化能力を示し、その知覚と理解能力は、IADタスクにLMMを適用する可能性を示唆している。しかし,LMMにはテキスト領域における産業的異常検出に関する知識が豊富にあるにもかかわらず,テキスト領域と視覚領域のモダリティギャップのため,LMMは知識を活用できない。 LMMの関連知識を刺激し,LMMを異常検出タスクに適用するために,既存のIAD手法を視覚専門家として導入し,産業的異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略して {Myriad} と略す)。具体的には、視覚専門家が生成した異常マップをLMMのガイダンスとして利用し、視覚モデルが異常領域により多くの注意を払うように誘導する。次に、視覚的特徴をアダプタを介して変調し、言語モデルに入力される異常検出タスクに適合させ、視覚専門家の指導と人間の指示とともに最終出力を生成する。 MVTec-AD, VisA, PCB Bank のベンチマークにおいて,提案手法は最先端の手法に対して良好に機能するだけでなく,IAD 分野における LMM の柔軟性と命令追従性を継承することを示した。ソースコードと事前訓練されたモデルは、 \url{https://github.com/tzjtatata/Myriad} で公開されている。

関連論文リスト

LMM-Det: Make Large Multimodal Models Excel in Object Detection [0.62914438169038]
本研究では,LMM-Detを提案する。LMM-Detは,大規模なマルチモーダルモデルを用いて,特定の検出モジュールを依存せずに,バニラオブジェクトの検出を行う。具体的には,大規模なマルチモーダルモデルとオブジェクト検出が一致した場合の総合的な探索分析を行い,リコールレートが専門的検出モデルと比較して著しく低下することを明らかにする。大規模なマルチモーダルモデルでは、余分な検出モジュールを使わずに検出能力を有する。
論文参考訳（メタデータ） (2025-07-24T11:05:24Z)
Just Noticeable Difference for Large Multimodal Models [70.41467229325345]
目立った違い(JND)は、人間の視覚システム(HVS)が知覚できる最小限の変化である。初期の試みとして、現在のLMMには視覚盲点があることを実証する。本研究は,LMM研究のユニークな視点として,LMM-JNDの重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-01T07:06:32Z)
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。 Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文参考訳（メタデータ） (2025-05-28T07:02:15Z)
AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection [40.34270276536052]
産業異常検出(IAD)は、欠陥サンプルの不足により深刻な課題となる。従来のアプローチは、手作りの機能やドメイン固有のエキスパートモデルによって制約されることが多いが、この制限に対処するのに苦労している。本稿では,マルチモーダル大規模言語モデル(MLLM)であるVLM-R1を活用する先駆的フレームワークであるAnomalyR1を紹介する。
論文参考訳（メタデータ） (2025-04-16T09:48:41Z)
Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process [67.99194145865165]
LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
論文参考訳（メタデータ） (2025-03-17T13:56:57Z)
Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。 MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。 IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文参考訳（メタデータ） (2025-01-27T05:41:10Z)
Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文参考訳（メタデータ） (2024-12-08T16:10:42Z)
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文参考訳（メタデータ） (2024-09-30T09:51:29Z)
Vision-Language Models Assisted Unsupervised Video Anomaly Detection [3.1095294567873606]
異常サンプルは教師なし学習手法における重要な課題を示す。提案手法では,大規模言語モデルの推論能力を活用したモーダル事前学習モデルを用いる。本手法は,高次元視覚特徴を低次元意味的特徴にマッピングすることにより,教師なし異常検出の解釈可能性を大幅に向上させる。
論文参考訳（メタデータ） (2024-09-21T11:48:54Z)
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文参考訳（メタデータ） (2024-08-12T17:44:17Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning [3.2331030725755645]
複数のシナリオに適用可能な一般的な異常検出モデルを開発する。本手法では,タスク記述,クラスコンテキスト,正規性規則,参照画像など,マルチモーダルなプロンプト型について検討する。予備研究は,視覚と言語の組み合わせが,モデルをカスタマイズする条件として,異常検出性能を高めることを実証した。
論文参考訳（メタデータ） (2024-03-17T04:30:57Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。 PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文参考訳（メタデータ） (2022-12-05T05:03:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。