論文の概要: Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark
- arxiv url: http://arxiv.org/abs/2406.09016v2
- Date: Sat, 02 Nov 2024 13:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:42.307759
- Title: Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark
- Title(参考訳): 複雑な産業プロセスにおける異常検出のためのクロスモーダル学習:方法論とベンチマーク
- Authors: Gaochang Wu, Yapeng Zhang, Lan Deng, Jingxin Zhang, Tianyou Chai,
- Abstract要約: 複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
- 参考スコア(独自算出の注目度): 19.376814754500625
- License:
- Abstract: Anomaly detection in complex industrial processes plays a pivotal role in ensuring efficient, stable, and secure operation. Existing anomaly detection methods primarily focus on analyzing dominant anomalies using the process variables (such as arc current) or constructing neural networks based on abnormal visual features, while overlooking the intrinsic correlation of cross-modal information. This paper proposes a cross-modal Transformer (dubbed FmFormer), designed to facilitate anomaly detection by exploring the correlation between visual features (video) and process variables (current) in the context of the fused magnesium smelting process. Our approach introduces a novel tokenization paradigm to effectively bridge the substantial dimensionality gap between the 3D video modality and the 1D current modality in a multiscale manner, enabling a hierarchical reconstruction of pixel-level anomaly detection. Subsequently, the FmFormer leverages self-attention to learn internal features within each modality and bidirectional cross-attention to capture correlations across modalities. By decoding the bidirectional correlation features, we obtain the final detection result and even locate the specific anomaly region. To validate the effectiveness of the proposed method, we also present a pioneering cross-modal benchmark of the fused magnesium smelting process, featuring synchronously acquired video and current data for over 2.2 million samples. Leveraging cross-modal learning, the proposed FmFormer achieves state-of-the-art performance in detecting anomalies, particularly under extreme interferences such as current fluctuations and visual occlusion caused by heavy water mist. The presented methodology and benchmark may be applicable to other industrial applications with some amendments. The benchmark will be released at https://github.com/GaochangWu/FMF-Benchmark.
- Abstract(参考訳): 複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
既存の異常検出方法は、主にプロセス変数(アーク電流など)を用いて支配的な異常を分析することや、異常な視覚的特徴に基づいてニューラルネットワークを構築することに焦点を当てている。
本稿では,マグネシウム溶融プロセスのコンテキストにおける視覚的特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスフォーマー(FmFormer)を提案する。
提案手法は,3次元ビデオモダリティと1次元電流モダリティの実質的な次元ギャップをマルチスケールで効果的に橋渡しし,画素レベルの異常検出を階層的に再構築する,新しいトークン化パラダイムを提案する。
その後、FmFormerは自己アテンションを利用して各モダリティの内部特徴と双方向のクロスアテンションを学習し、モダリティ間の相関を捉える。
双方向相関特徴を復号することにより、最終的な検出結果を得て、特定の異常領域を特定できる。
提案手法の有効性を検証するため,220万以上の試料に対して,同期的に取得したビデオおよび電流データを特徴とする溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークを提案する。
クロスモーダル学習を活用して提案したFmFormerは異常検出における最先端性能を実現する。
提案された方法論とベンチマークは、いくつかの修正を加えて他の産業応用に適用することができる。
ベンチマークはhttps://github.com/GaochangWu/FMF-Benchmarkで公開される。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。
コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。
我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-06T11:05:13Z) - Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文 参考訳(メタデータ) (2024-02-04T14:12:51Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - CL-Flow:Strengthening the Normalizing Flows by Contrastive Learning for
Better Anomaly Detection [1.951082473090397]
コントラスト学習と2D-Flowを組み合わせた自己教師付き異常検出手法を提案する。
本手法は,主流の教師なし手法と比較して,検出精度が向上し,モデルパラメータが減少し,推論速度が向上することを示す。
BTADデータセットでは,MVTecADデータセットでは画像レベルのAUROCが99.6%,BTADデータセットでは画像レベルのAUROCが96.8%であった。
論文 参考訳(メタデータ) (2023-11-12T10:07:03Z) - ImDiffusion: Imputed Diffusion Models for Multivariate Time Series
Anomaly Detection [44.21198064126152]
我々はImDiffusionという新しい異常検出フレームワークを提案する。
ImDiffusionは時系列計算と拡散モデルを組み合わせて、正確で堅牢な異常検出を実現する。
我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。
論文 参考訳(メタデータ) (2023-07-03T04:57:40Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - A Transfer Learning Framework for Anomaly Detection Using Model of
Normality [2.9685635948299995]
畳み込みニューラルネットワーク(CNN)技術は、画像ベースの異常検出アプリケーションにおいて非常に有用であることが証明されている。
モデル・オブ・ノーマル性(MoN)を用いた類似度尺度に基づく異常検出のための伝達学習フレームワークを提案する。
提案したしきい値設定により,大幅な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-11-12T05:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。