論文の概要: Cross-Modal Learning for Anomaly Detection in Fused Magnesium Smelting Process: Methodology and Benchmark
- arxiv url: http://arxiv.org/abs/2406.09016v1
- Date: Thu, 13 Jun 2024 11:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:24:52.041040
- Title: Cross-Modal Learning for Anomaly Detection in Fused Magnesium Smelting Process: Methodology and Benchmark
- Title(参考訳): 溶融マグネシウム溶融プロセスにおける異常検出のためのクロスモーダル学習法とベンチマーク
- Authors: Gaochang Wu, Yapeng Zhang, Lan Deng, Jingxin Zhang, Tianyou Chai,
- Abstract要約: 本稿では, マグネシウム溶融プロセスにおける異常検出を容易にするクロスモーダルトランス (dubed FmFormer) を提案する。
提案手法は,3次元ビデオモダリティと1次元カレントモダリティの実質的な次元差を橋渡しする,新しいトークン化パラダイムを導入する。
提案手法の有効性を検証するため, 溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークも提案した。
- 参考スコア(独自算出の注目度): 19.376814754500625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fused Magnesium Furnace (FMF) is a crucial industrial equipment in the production of magnesia, and anomaly detection plays a pivotal role in ensuring its efficient, stable, and secure operation. Existing anomaly detection methods primarily focus on analyzing dominant anomalies using the process variables (such as arc current) or constructing neural networks based on abnormal visual features, while overlooking the intrinsic correlation of cross-modal information. This paper proposes a cross-modal Transformer (dubbed FmFormer), designed to facilitate anomaly detection in fused magnesium smelting processes by exploring the correlation between visual features (video) and process variables (current). Our approach introduces a novel tokenization paradigm to effectively bridge the substantial dimensionality gap between the 3D video modality and the 1D current modality in a multiscale manner, enabling a hierarchical reconstruction of pixel-level anomaly detection. Subsequently, the FmFormer leverages self-attention to learn internal features within each modality and bidirectional cross-attention to capture correlations across modalities. To validate the effectiveness of the proposed method, we also present a pioneering cross-modal benchmark of the fused magnesium smelting process, featuring synchronously acquired video and current data for over 2.2 million samples. Leveraging cross-modal learning, the proposed FmFormer achieves state-of-the-art performance in detecting anomalies, particularly under extreme interferences such as current fluctuations and visual occlusion caused by heavy water mist. The presented methodology and benchmark may be applicable to other industrial applications with some amendments. The benchmark will be released at https://github.com/GaochangWu/FMF-Benchmark.
- Abstract(参考訳): 溶融マグネシウム炉(FMF)はマグネシアの製造において重要な産業機器であり、その効率、安定性、安全性を確保する上で、異常検出が重要な役割を担っている。
既存の異常検出方法は、主にプロセス変数(アーク電流など)を用いて支配的な異常を分析することや、異常な視覚的特徴に基づいてニューラルネットワークを構築することに焦点を当てている。
本稿では, マグネシウム溶融プロセスの異常検出を容易にするクロスモーダルトランス (dubed FmFormer) を提案する。
提案手法は,3次元ビデオモダリティと1次元電流モダリティの実質的な次元ギャップをマルチスケールで効果的に橋渡しし,画素レベルの異常検出を階層的に再構築する,新しいトークン化パラダイムを提案する。
その後、FmFormerは自己アテンションを利用して各モダリティの内部特徴と双方向のクロスアテンションを学習し、モダリティ間の相関を捉える。
提案手法の有効性を検証するため,220万以上の試料に対して,同期的に取得したビデオおよび電流データを特徴とする溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークを提案する。
クロスモーダル学習を活用して提案したFmFormerは異常検出における最先端性能を実現する。
提案された方法論とベンチマークは、いくつかの修正を加えて他の産業応用に適用することができる。
ベンチマークはhttps://github.com/GaochangWu/FMF-Benchmarkで公開される。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。
コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。
我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-06T11:05:13Z) - Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文 参考訳(メタデータ) (2024-02-04T14:12:51Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - CL-Flow:Strengthening the Normalizing Flows by Contrastive Learning for
Better Anomaly Detection [1.951082473090397]
コントラスト学習と2D-Flowを組み合わせた自己教師付き異常検出手法を提案する。
本手法は,主流の教師なし手法と比較して,検出精度が向上し,モデルパラメータが減少し,推論速度が向上することを示す。
BTADデータセットでは,MVTecADデータセットでは画像レベルのAUROCが99.6%,BTADデータセットでは画像レベルのAUROCが96.8%であった。
論文 参考訳(メタデータ) (2023-11-12T10:07:03Z) - ImDiffusion: Imputed Diffusion Models for Multivariate Time Series
Anomaly Detection [44.21198064126152]
我々はImDiffusionという新しい異常検出フレームワークを提案する。
ImDiffusionは時系列計算と拡散モデルを組み合わせて、正確で堅牢な異常検出を実現する。
我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。
論文 参考訳(メタデータ) (2023-07-03T04:57:40Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - A Transfer Learning Framework for Anomaly Detection Using Model of
Normality [2.9685635948299995]
畳み込みニューラルネットワーク(CNN)技術は、画像ベースの異常検出アプリケーションにおいて非常に有用であることが証明されている。
モデル・オブ・ノーマル性(MoN)を用いた類似度尺度に基づく異常検出のための伝達学習フレームワークを提案する。
提案したしきい値設定により,大幅な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-11-12T05:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。