Fugu-MT 論文翻訳(概要): Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark

論文の概要: Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark

arxiv url: http://arxiv.org/abs/2406.09016v2
Date: Sat, 02 Nov 2024 13:09:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.579118
Title: Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark
Title（参考訳）: 複雑な産業プロセスにおける異常検出のためのクロスモーダル学習:方法論とベンチマーク
Authors: Gaochang Wu, Yapeng Zhang, Lan Deng, Jingxin Zhang, Tianyou Chai,
Abstract要約: 複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
参考スコア（独自算出の注目度）: 19.376814754500625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Anomaly detection in complex industrial processes plays a pivotal role in ensuring efficient, stable, and secure operation. Existing anomaly detection methods primarily focus on analyzing dominant anomalies using the process variables (such as arc current) or constructing neural networks based on abnormal visual features, while overlooking the intrinsic correlation of cross-modal information. This paper proposes a cross-modal Transformer (dubbed FmFormer), designed to facilitate anomaly detection by exploring the correlation between visual features (video) and process variables (current) in the context of the fused magnesium smelting process. Our approach introduces a novel tokenization paradigm to effectively bridge the substantial dimensionality gap between the 3D video modality and the 1D current modality in a multiscale manner, enabling a hierarchical reconstruction of pixel-level anomaly detection. Subsequently, the FmFormer leverages self-attention to learn internal features within each modality and bidirectional cross-attention to capture correlations across modalities. By decoding the bidirectional correlation features, we obtain the final detection result and even locate the specific anomaly region. To validate the effectiveness of the proposed method, we also present a pioneering cross-modal benchmark of the fused magnesium smelting process, featuring synchronously acquired video and current data for over 2.2 million samples. Leveraging cross-modal learning, the proposed FmFormer achieves state-of-the-art performance in detecting anomalies, particularly under extreme interferences such as current fluctuations and visual occlusion caused by heavy water mist. The presented methodology and benchmark may be applicable to other industrial applications with some amendments. The benchmark will be released at https://github.com/GaochangWu/FMF-Benchmark.
Abstract（参考訳）: 複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。既存の異常検出方法は、主にプロセス変数(アーク電流など)を用いて支配的な異常を分析することや、異常な視覚的特徴に基づいてニューラルネットワークを構築することに焦点を当てている。本稿では,マグネシウム溶融プロセスのコンテキストにおける視覚的特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスフォーマー(FmFormer)を提案する。提案手法は,3次元ビデオモダリティと1次元電流モダリティの実質的な次元ギャップをマルチスケールで効果的に橋渡しし,画素レベルの異常検出を階層的に再構築する,新しいトークン化パラダイムを提案する。その後、FmFormerは自己アテンションを利用して各モダリティの内部特徴と双方向のクロスアテンションを学習し、モダリティ間の相関を捉える。双方向相関特徴を復号することにより、最終的な検出結果を得て、特定の異常領域を特定できる。提案手法の有効性を検証するため,220万以上の試料に対して,同期的に取得したビデオおよび電流データを特徴とする溶融マグネシウム製錬プロセスの先駆的なクロスモーダルベンチマークを提案する。クロスモーダル学習を活用して提案したFmFormerは異常検出における最先端性能を実現する。提案された方法論とベンチマークは、いくつかの修正を加えて他の産業応用に適用することができる。ベンチマークはhttps://github.com/GaochangWu/FMF-Benchmarkで公開される。

関連論文リスト

CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-06-13T13:30:15Z)
Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文参考訳（メタデータ） (2025-05-23T15:05:56Z)
Enhancing Web Service Anomaly Detection via Fine-grained Multi-modal Association and Frequency Domain Analysis [8.860339665670255]
異常検出は、Webサービスシステムの安定性と信頼性を保証するために不可欠である。既存の異常検出方法は、ログとメトリクスを使用して異常を検出する。本稿では,これらの2つの問題に対処するため,FFADという新しい異常検出手法を提案する。
論文参考訳（メタデータ） (2025-01-28T12:00:45Z)
Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.100563798908777]
コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-12-23T01:31:39Z)
SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文参考訳（メタデータ） (2024-10-15T07:26:39Z)
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文参考訳（メタデータ） (2024-06-05T06:18:03Z)
A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文参考訳（メタデータ） (2024-05-06T11:05:13Z)
Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文参考訳（メタデータ） (2024-02-04T14:12:51Z)
DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文参考訳（メタデータ） (2024-02-03T06:49:42Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
CL-Flow:Strengthening the Normalizing Flows by Contrastive Learning for Better Anomaly Detection [1.951082473090397]
コントラスト学習と2D-Flowを組み合わせた自己教師付き異常検出手法を提案する。本手法は,主流の教師なし手法と比較して,検出精度が向上し,モデルパラメータが減少し,推論速度が向上することを示す。 BTADデータセットでは,MVTecADデータセットでは画像レベルのAUROCが99.6%,BTADデータセットでは画像レベルのAUROCが96.8%であった。
論文参考訳（メタデータ） (2023-11-12T10:07:03Z)
ImDiffusion: Imputed Diffusion Models for Multivariate Time Series Anomaly Detection [44.21198064126152]
我々はImDiffusionという新しい異常検出フレームワークを提案する。 ImDiffusionは時系列計算と拡散モデルを組み合わせて、正確で堅牢な異常検出を実現する。我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。
論文参考訳（メタデータ） (2023-07-03T04:57:40Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
A Transfer Learning Framework for Anomaly Detection Using Model of Normality [2.9685635948299995]
畳み込みニューラルネットワーク(CNN)技術は、画像ベースの異常検出アプリケーションにおいて非常に有用であることが証明されている。モデル・オブ・ノーマル性(MoN)を用いた類似度尺度に基づく異常検出のための伝達学習フレームワークを提案する。提案したしきい値設定により,大幅な性能向上が達成できることを示す。
論文参考訳（メタデータ） (2020-11-12T05:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。