論文の概要: A SAM-guided Two-stream Lightweight Model for Anomaly Detection
- arxiv url: http://arxiv.org/abs/2402.19145v2
- Date: Tue, 19 Nov 2024 15:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:54.971589
- Title: A SAM-guided Two-stream Lightweight Model for Anomaly Detection
- Title(参考訳): SAM誘導による異常検出用2ストリーム軽量モデル
- Authors: Chenghao Li, Lei Qi, Xin Geng,
- Abstract要約: 我々は、教師なし異常検出(STLM)のためのSAM誘導2ストリーム軽量モデルを提案する。
MVTec ADベンチマークを用いて行った実験により,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,最先端の手法と効果的に競合することが示された。
- 参考スコア(独自算出の注目度): 44.73985145110819
- License:
- Abstract: In industrial anomaly detection, model efficiency and mobile-friendliness become the primary concerns in real-world applications. Simultaneously, the impressive generalization capabilities of Segment Anything (SAM) have garnered broad academic attention, making it an ideal choice for localizing unseen anomalies and diverse real-world patterns. In this paper, considering these two critical factors, we propose a SAM-guided Two-stream Lightweight Model for unsupervised anomaly detection (STLM) that not only aligns with the two practical application requirements but also harnesses the robust generalization capabilities of SAM. We employ two lightweight image encoders, i.e., our two-stream lightweight module, guided by SAM's knowledge. To be specific, one stream is trained to generate discriminative and general feature representations in both normal and anomalous regions, while the other stream reconstructs the same images without anomalies, which effectively enhances the differentiation of two-stream representations when facing anomalous regions. Furthermore, we employ a shared mask decoder and a feature aggregation module to generate anomaly maps. Our experiments conducted on MVTec AD benchmark show that STLM, with about 16M parameters and achieving an inference time in 20ms, competes effectively with state-of-the-art methods in terms of performance, 98.26% on pixel-level AUC and 94.92% on PRO. We further experiment on more difficult datasets, e.g., VisA and DAGM, to demonstrate the effectiveness and generalizability of STLM.
- Abstract(参考訳): 産業異常検出において、モデル効率と移動親和性は現実世界の応用において主要な関心事となっている。
同時に、Segment Anything(SAM)の印象的な一般化能力は広く学術的な注目を集めており、目に見えない異常や多様な現実世界のパターンをローカライズするのに理想的な選択肢となっている。
本稿では,これら2つの重要な要因を考慮し,SAM誘導型非教師付き異常検出用2ストリーム軽量モデル(STLM)を提案する。
我々はSAMの知識によってガイドされた2ストリームの軽量モジュールである2つの軽量画像エンコーダを採用している。
具体的には、一方のストリームは、正常領域と異常領域の両方で識別的および一般的な特徴表現を生成するように訓練され、他方のストリームは同じ画像を異常なく再構成し、異常領域に直面した際の2ストリーム表現の識別を効果的に強化する。
さらに,共有マスクデコーダと特徴集約モジュールを用いて異常マップを生成する。
MVTec ADベンチマークの結果,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,高精細度AUCでは98.26%,PROでは94.92%の精度で最先端の手法と競合することがわかった。
さらに、より難しいデータセット、例えば、VisA、DAGMについて実験を行い、STLMの有効性と一般化性を示す。
関連論文リスト
- SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - Adapt CLIP as Aggregation Instructor for Image Dehazing [17.29370328189668]
ほとんどの脱ヘイジング法は、限られた受容領域に悩まされており、視覚言語モデルにカプセル化される前の豊かな意味を探索しない。
先駆的なハイブリッドフレームワークであるCLIPHazeを紹介し、Mambaの効率的なグローバルモデリングとCLIPの事前知識とゼロショット機能とを相乗化する。
並列状態空間モデルとウィンドウベースの自己アテンションを用いて,グローバルな文脈依存性と局所的な微粒化知覚を得る。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention [0.0]
Segment Anything Model (SAM) は画像セグメンテーションにおける異常な性能で注目されている。
カモフラージュされた物体は一般的に背景に溶け込み、静止画では区別が難しい。
これらの課題を克服するために,SAMスパイダーモジュール (SAM-PM) と呼ばれる新しい手法を提案する。
本手法は,SAMのパラメータの1%未満の追加で,時間的一貫性とドメイン固有の専門知識をセグメンテーションネットワークに効果的に組み込む。
論文 参考訳(メタデータ) (2024-06-09T14:33:38Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - DMAD: Dual Memory Bank for Real-World Anomaly Detection [90.97573828481832]
我々は、DMAD(Anomaly Detection)のための表現学習を強化したDual Memory Bankという新しいフレームワークを提案する。
DMADはデュアルメモリバンクを用いて特徴距離を計算し、正常パターンと異常パターンの間の特徴注意を計算している。
DMADをMVTec-ADおよびVisAデータセット上で評価した。
論文 参考訳(メタデータ) (2024-03-19T02:16:32Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Dual Memory Units with Uncertainty Regulation for Weakly Supervised
Video Anomaly Detection [15.991784541576788]
ビデオとセグメントレベルのラベル指向の既存のアプローチは、主に異常データの表現の抽出に重点を置いている。
本研究では、正規データの表現と異常データの識別特徴の両方を学習するために、不確実性制御デュアルメモリユニット(UR-DMU)モデルを提案する。
我々の手法は、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-02-10T10:39:40Z) - Prototypical Residual Networks for Anomaly Detection and Localization [80.5730594002466]
本稿では,PRN(Prototypeal Residual Network)というフレームワークを提案する。
PRNは、異常領域の分割マップを正確に再構築するために、異常領域と正常パターンの間の様々なスケールとサイズの特徴的残差を学習する。
異常を拡大・多様化するために,見かけの相違と外観の相違を考慮に入れた様々な異常発生戦略を提示する。
論文 参考訳(メタデータ) (2022-12-05T05:03:46Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。