論文の概要: Causal-HM: Restoring Physical Generative Logic in Multimodal Anomaly Detection via Hierarchical Modulation
- arxiv url: http://arxiv.org/abs/2512.21650v1
- Date: Thu, 25 Dec 2025 12:32:33 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:47.246935
- Title: Causal-HM: Restoring Physical Generative Logic in Multimodal Anomaly Detection via Hierarchical Modulation
- Title(参考訳): Causal-HM:階層的変調による多モード異常検出における物理生成論理の復元
- Authors: Xiao Liu, Junchen Jin, Yanjie Zhao, Zhixuan Xing,
- Abstract要約: Causal-HMは、Process to Resultの依存性を明示的にモデル化する、統一されたマルチモーダルなUADフレームワークである。
このフレームワークには,低次元センサ信号をコンテキストとして利用し,高次元音声・視覚的特徴抽出を誘導するセンサガイドCHM変調機構が組み込まれている。
4つのモードで新たに構築したWeld-4Mベンチマークの実験では、Causal-HMが90.7%の最先端(SOTA)I-AUROCを達成した。
- 参考スコア(独自算出の注目度): 7.284641019396717
- License:
- Abstract: Multimodal Unsupervised Anomaly Detection (UAD) is critical for quality assurance in smart manufacturing, particularly in complex processes like robotic welding. However, existing methods often suffer from causal blindness, treating process modalities (e.g., real-time video, audio, and sensors) and result modalities (e.g., post-weld images) as equal feature sources, thereby ignoring the inherent physical generative logic. Furthermore, the heterogeneity gap between high-dimensional visual data and low-dimensional sensor signals frequently leads to critical process context being drowned out. In this paper, we propose Causal-HM, a unified multimodal UAD framework that explicitly models the physical Process to Result dependency. Specifically, our framework incorporates two key innovations: a Sensor-Guided CHM Modulation mechanism that utilizes low-dimensional sensor signals as context to guide high-dimensional audio-visual feature extraction , and a Causal-Hierarchical Architecture that enforces a unidirectional generative mapping to identify anomalies that violate physical consistency. Extensive experiments on our newly constructed Weld-4M benchmark across four modalities demonstrate that Causal-HM achieves a state-of-the-art (SOTA) I-AUROC of 90.7%. Code will be released after the paper is accepted.
- Abstract(参考訳): UAD(Multimodal Unsupervised Anomaly Detection)は、スマート製造における品質保証、特にロボット溶接のような複雑なプロセスにおいて重要である。
しかし、既存の手法は因果盲性に悩まされ、プロセスのモーダル性(例えば、リアルタイムビデオ、オーディオ、センサー)と結果のモーダル性(例えば、未成年後の画像)は同等の特徴源として扱われ、それによって固有の物理生成論理を無視している。
さらに、高次元の視覚データと低次元のセンサー信号の不均一性ギャップは、しばしば重要なプロセスコンテキストをダンプアウトさせる。
本稿では,物理的プロセスから結果への依存性を明示的にモデル化する統一型マルチモーダルUADフレームワークCausal-HMを提案する。
具体的には、低次元センサ信号をコンテキストとして利用し、高次元の視覚特徴抽出を誘導するSensor-Guided CHM変調機構と、物理的整合性に反する異常を識別するための一方向生成マッピングを強制するCausal-Hierarchical Architectureという2つの重要なイノベーションを取り入れた。
4つのモードで新たに構築したWeld-4Mベンチマークの大規模な実験により、Causal-HMが90.7%の最先端(SOTA)I-AUROCを達成することが示された。
コードは論文が受理された後に公開される。
関連論文リスト
- RareFlow: Physics-Aware Flow-Matching for Cross-Sensor Super-Resolution of Rare-Earth Features [27.505614464585538]
本稿では,ORD(out-of-distribution)のロバスト性を考慮した物理対応SRフレームワークであるRareFlowを紹介する。
Gated ControlNetは低解像度入力からの微細な幾何学的忠実度を保ち、テキストプロンプトは複雑な特徴を合成するための意味的なガイダンスを提供する。
ブラインド評価において、地球物理学の専門家は、我々のモデルの出力は、基礎となる真理像の忠実さに近づき、最先端のベースラインを著しく上回っていると評価した。
論文 参考訳(メタデータ) (2025-10-27T19:56:43Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FgC2F-UDiff: Frequency-guided and Coarse-to-fine Unified Diffusion Model for Multi-modality Missing MRI Synthesis [6.475175425060296]
我々は、周波数誘導および粗粒拡散モデル(FgC2F-UDiff)という新しい統合合成モデルを提案する。
論文 参考訳(メタデータ) (2025-01-07T04:42:45Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。