論文の概要: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2405.13571v3
- Date: Mon, 23 Sep 2024 13:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 02:18:45.989425
- Title: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
- Title(参考訳): クロスモーダル蒸留による不完全多モード産業異常検出
- Authors: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau,
- Abstract要約: 3次元点雲とRGB画像に基づくマルチモーダル産業異常検出(IAD)は現在も進行中である。
既存の品質制御プロセスは、光学および赤外線イメージングのような高速なインライン検査と高解像度だが時間を要するニアラインキャラクタリゼーション技術を組み合わせている。
IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
- Abstract(参考訳): 近年の3次元点雲とRGB画像に基づく多次元産業異常検出(IAD)の研究は、正確な分類と分割のためのモダリティ間の冗長性と相補性を活用することの重要性を強調している。
しかし、実用製品ラインでのマルチモーダルIADの実現は、現在も進行中である。
現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを検討することが不可欠である。
既存の品質管理プロセスは、光学的および赤外線イメージングのような高速なインライン検査と、工業用CTや電子顕微鏡など、高解像度だが時間を要するニアラインのキャラクタリゼーション技術を組み合わせて、Liイオン電池や複合材料の製造における欠陥を手動または半自動で発見し分析する。
コストと時間的制約を考慮すれば、サンプルのサブセットのみがインラインおよびニアラインメソッドで検査でき、残りのサンプルはインラインインラインインスペクションの1つか2つの形式でのみ評価される。
ディープラーニング駆動の自動欠陥検出のためのデータを完全に活用するには、モデルはマルチモーダルトレーニングを活用し、推論中に不完全なモダリティを処理する能力を持つ必要がある。
本稿では,多モードトレーニング・Few-modal Inference(MTFI)パイプラインの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。
その結果,MTFIパイプラインはトレーニングや推論に単一モードのみを適用するよりも,不完全なマルチモーダル情報を効果的に活用できることがわかった。
さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。
これは、製造シナリオから追加のモダリティを備えた、将来のマルチモーダルデータセット構築の基盤を提供します。
関連論文リスト
- Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。
本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。
MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文 参考訳(メタデータ) (2024-10-29T01:21:24Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DefectTwin: When LLM Meets Digital Twin for Railway Defect Inspection [5.601042583221173]
Digital Twin(DT)は、オブジェクト、プロセス、あるいはシステムがリアルタイム監視、シミュレーション、予測保守のために複製される。
大規模言語モデル(LLM)のような最近の進歩は、従来のAIシステムに革命をもたらし、鉄道欠陥検査などの産業応用においてDTと組み合わせることで、大きな可能性を秘めている。
鉄道における視覚的欠陥と視覚的欠陥の両方を分析するために,マルチモーダル・マルチモデル (M2) LLMベースのAIパイプラインを利用するDefectTwinを紹介した。
論文 参考訳(メタデータ) (2024-08-26T22:32:31Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。