論文の概要: MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples
- arxiv url: http://arxiv.org/abs/2511.10047v1
- Date: Fri, 14 Nov 2025 01:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.661729
- Title: MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples
- Title(参考訳): MuSc-V2:無ラベルサンプルの相互スコーシングによるゼロショットマルチモーダル産業異常分類とセグメンテーション
- Authors: Xurui Li, Feng Xue, Yu Zhou,
- Abstract要約: ゼロショット異常分類(AC/AS)のためのMutual Scoring framework(MuSc-V2)を提案する。
私たちのフレームワークは、完全なデータセットと、一貫して堅牢なパフォーマンスを持つ小さなサブセットの両方で柔軟に機能します。
新たなフレームワークの助けを借りて、MuSc-V2は大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 8.323617762880533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot anomaly classification (AC) and segmentation (AS) methods aim to identify and outline defects without using any labeled samples. In this paper, we reveal a key property that is overlooked by existing methods: normal image patches across industrial products typically find many other similar patches, not only in 2D appearance but also in 3D shapes, while anomalies remain diverse and isolated. To explicitly leverage this discriminative property, we propose a Mutual Scoring framework (MuSc-V2) for zero-shot AC/AS, which flexibly supports single 2D/3D or multimodality. Specifically, our method begins by improving 3D representation through Iterative Point Grouping (IPG), which reduces false positives from discontinuous surfaces. Then we use Similarity Neighborhood Aggregation with Multi-Degrees (SNAMD) to fuse 2D/3D neighborhood cues into more discriminative multi-scale patch features for mutual scoring. The core comprises a Mutual Scoring Mechanism (MSM) that lets samples within each modality to assign score to each other, and Cross-modal Anomaly Enhancement (CAE) that fuses 2D and 3D scores to recover modality-specific missing anomalies. Finally, Re-scoring with Constrained Neighborhood (RsCon) suppresses false classification based on similarity to more representative samples. Our framework flexibly works on both the full dataset and smaller subsets with consistently robust performance, ensuring seamless adaptability across diverse product lines. In aid of the novel framework, MuSc-V2 achieves significant performance improvements: a $\textbf{+23.7\%}$ AP gain on the MVTec 3D-AD dataset and a $\textbf{+19.3\%}$ boost on the Eyecandies dataset, surpassing previous zero-shot benchmarks and even outperforming most few-shot methods. The code will be available at The code will be available at \href{https://github.com/HUST-SLOW/MuSc-V2}{https://github.com/HUST-SLOW/MuSc-V2}.
- Abstract(参考訳): ゼロショット異常分類(AC)とセグメンテーション(AS)メソッドは、ラベル付きサンプルを使わずに欠陥を特定し、アウトラインすることを目的としている。
本稿では, 産業製品にまたがる通常の画像パッチは, 2次元の外観だけでなく, 3次元の形状でもよく見られるが, 異常は様々であり, 孤立している。
この識別特性を明示的に活用するために、ゼロショットAC/ASのためのMutual Scoring framework (MuSc-V2)を提案する。
具体的には,不連続面から偽陽性を減少させるイテレーティブ・ポイント・グルーピング(IPG)による3次元表現の改善から始める。
次に、SNAMDを用いて、2D/3D近傍キューをより差別的なマルチスケールパッチ特徴に融合し、相互スコアリングを行う。
コアは、各モダリティ内のサンプルが互いにスコアを割り当てることを可能にするMutual Scoring Mechanism(MSM)と、2Dと3Dのスコアを融合してモダリティ固有の欠落した異常を回復するクロスモーダル・アノマリー・エンハンスメント(CAE)で構成されている。
最後に、Re-scoring with Constrained Neighborhood (RsCon)は、より代表的なサンプルと類似性に基づく偽分類を抑制する。
当社のフレームワークは、完全なデータセットと小さなサブセットの両方でフレキシブルに動作し、一貫して堅牢なパフォーマンスを実現し、さまざまな製品ラインにおけるシームレスな適応性を確保します。
MVTec 3D-ADデータセットで$\textbf{+23.7\%}$ AP ゲイン、Eyecandiesデータセットで$\textbf{+19.3\%}$ ブースト、以前のゼロショットベンチマークを上回り、ほとんどの数ショットメソッドよりも優れています。
コードは href{https://github.com/HUST-SLOW/MuSc-V2}{https://github.com/HUST-SLOW/MuSc-V2} で入手できる。
関連論文リスト
- Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box
Annotations for Autonomous Driving [13.08936676096554]
我々はMultimodal Weakly Supervised Instance (MWSIS)と呼ばれる新しいフレームワークを提案する。
MWSISは、様々な細粒度ラベルの生成と修正モジュールを2Dと3Dの両方に組み込んでいる。
完全に教師されたインスタンスセグメンテーションよりも優れており、完全に教師されたアノテーションはわずか5%である。
論文 参考訳(メタデータ) (2023-12-12T05:12:22Z) - Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and
Class-balanced Pseudo-Labeling [38.07637524378327]
ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。
既存のDAメソッドは、マルチクラスのトレーニング環境に適用した場合、パフォーマンスが大幅に低下する。
本稿では,すべてのクラスを一度に検出する学習に適した新しいReDBフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T04:34:11Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。