論文の概要: Cross-Modal Distillation in Industrial Anomaly Detection: Exploring Efficient Multi-Modal IAD
- arxiv url: http://arxiv.org/abs/2405.13571v1
- Date: Wed, 22 May 2024 12:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:24:16.594292
- Title: Cross-Modal Distillation in Industrial Anomaly Detection: Exploring Efficient Multi-Modal IAD
- Title(参考訳): 産業異常検出におけるクロスモーダル蒸留-効率的なマルチモーダルIADの探索
- Authors: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau,
- Abstract要約: IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
そこで本研究では, 点雲やRGB画像を用いた非対称性能改善の背景として, 推論の主なモダリティについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies of multi-modal Industrial Anomaly Detection (IAD) based on point clouds and RGB images indicated the importance of exploiting redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multi-modal IAD in practical production lines remains a work in progress that requires consideration of the trade-offs between costs and benefits associated with introducing new modalities, while ensuring compatibility with current processes. Combining fast in-line inspections with high-resolution, time-consuming, near-line characterization techniques to enhance detection accuracy fits well into the existing quality control process, but only part of the samples can be tested with expensive near-line methods. Thus, the model must have the ability to leverage multi-modal training and handle incomplete modalities during inference. One solution is generating cross-modal hallucination to transfer knowledge among modalities for missing modality issues. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of Multi-modal Training, Few-modal Inference pipeline. Moreover, we investigate reasons behind the asymmetric performance improvement using point clouds or RGB images as main modality of inference. This lays the foundation of our future multi-modal dataset construction for efficient IAD from manufacturing scenarios.
- Abstract(参考訳): 点雲とRGB画像に基づく多モード産業異常検出(IAD)の最近の研究は、正確な分類とセグメンテーションのためのモダリティ間の冗長性と相補性を活用することの重要性を示している。
しかし、実用製品ラインでのマルチモーダルIADの実現は、現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを考慮し、まだ進行中の作業である。
高速インラインインスペクションと高分解能で時間を要するニアラインキャラクタリゼーション技術を組み合わせることで、検出精度を向上させることは、既存の品質管理プロセスに適しているが、高価なニアライン手法でテストできるのはサンプルの一部のみである。
したがって、モデルはマルチモーダルトレーニングを活用でき、推論中に不完全なモダリティを処理できなければならない。
1つの解決策は、モダリティの欠落に対するモダリティ間の知識を伝達するために、モダリティ間の幻覚を生成することである。
本稿では,多モード学習,Few-modal Inference Pipelineの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。
さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。
これにより、製造シナリオから効率的なIDAを実現するための、将来のマルチモーダルデータセット構築の基礎となる。
関連論文リスト
- Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。
本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。
MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文 参考訳(メタデータ) (2024-10-29T01:21:24Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DefectTwin: When LLM Meets Digital Twin for Railway Defect Inspection [5.601042583221173]
Digital Twin(DT)は、オブジェクト、プロセス、あるいはシステムがリアルタイム監視、シミュレーション、予測保守のために複製される。
大規模言語モデル(LLM)のような最近の進歩は、従来のAIシステムに革命をもたらし、鉄道欠陥検査などの産業応用においてDTと組み合わせることで、大きな可能性を秘めている。
鉄道における視覚的欠陥と視覚的欠陥の両方を分析するために,マルチモーダル・マルチモデル (M2) LLMベースのAIパイプラインを利用するDefectTwinを紹介した。
論文 参考訳(メタデータ) (2024-08-26T22:32:31Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。
フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。
本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文 参考訳(メタデータ) (2024-03-14T14:19:48Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。