論文の概要: NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2507.07579v1
- Date: Thu, 10 Jul 2025 09:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.340228
- Title: NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning
- Title(参考訳): NexViTAD:ビジョンファウンデーションモデルとマルチタスク学習による非教師なしクロスドメイン欠陥検出
- Authors: Tianwei Mu, Feiyu Duan, Bo Zhou, Dan Xue, Manhong Huang,
- Abstract要約: NexViTADは、視覚基盤モデルに基づくクロスドメイン異常検出フレームワークである。
産業的異常検出における領域シフト問題に、革新的な共有部分空間投影機構を通じて対処する。
AUCは97.5%、APは70.4%、PRは95.2%である。
- 参考スコア(独自算出の注目度): 1.7603474309877931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel few-shot cross-domain anomaly detection framework, Nexus Vision Transformer for Anomaly Detection (NexViTAD), based on vision foundation models, which effectively addresses domain-shift challenges in industrial anomaly detection through innovative shared subspace projection mechanisms and multi-task learning (MTL) module. The main innovations include: (1) a hierarchical adapter module that adaptively fuses complementary features from Hiera and DINO-v2 pre-trained models, constructing more robust feature representations; (2) a shared subspace projection strategy that enables effective cross-domain knowledge transfer through bottleneck dimension constraints and skip connection mechanisms; (3) a MTL Decoder architecture supports simultaneous processing of multiple source domains, significantly enhancing model generalization capabilities; (4) an anomaly score inference method based on Sinkhorn-K-means clustering, combined with Gaussian filtering and adaptive threshold processing for precise pixel level. Valuated on the MVTec AD dataset, NexViTAD delivers state-of-the-art performance with an AUC of 97.5%, AP of 70.4%, and PRO of 95.2% in the target domains, surpassing other recent models, marking a transformative advance in cross-domain defect detection.
- Abstract(参考訳): 本稿では, 産業的異常検出における領域シフト問題に, 革新的な部分空間投影機構とマルチタスク学習(MTL)モジュールを用いて効果的に対処する, 視覚基盤モデルに基づく, 複数ショットのクロスドメイン異常検出フレームワークであるNexus Vision Transformer for Anomaly Detection (NexViTAD)を提案する。
主なイノベーションは,(1)Hiera と DINO-v2 の事前学習モデルからの相補的特徴を適応的に融合し,より堅牢な特徴表現を構築する階層型アダプタモジュール,(2) ボトルネック次元の制約や接続機構を通した効果的なクロスドメイン知識伝達を可能にする共有サブスペースプロジェクション戦略,(3) MTLデコーダアーキテクチャは複数のソースドメインの同時処理をサポートし,モデル一般化能力を大幅に向上する,(4) Sinkhorn-K-means クラスタリングに基づく異常スコア推論手法と、精度の高い画素レベルのガウスフィルタリングと適応しきい値処理を組み合わせた。
NexViTADはMVTec ADデータセットで評価され、AUCの97.5%、APの70.4%、PROの95.2%で最先端のパフォーマンスを提供し、他の最近のモデルを上回っ、クロスドメイン欠陥検出の革新的な進歩を示している。
関連論文リスト
- Dual-Branch Residual Network for Cross-Domain Few-Shot Hyperspectral Image Classification with Refined Prototype [17.404026075350707]
畳み込みニューラルネットワーク(CNN)は、ハイパースペクトル画像(HSI)分類に有効である。
それらの3D畳み込み構造は、数ショットのシナリオで高い計算コストと限定的な一般化をもたらす。
本文では, 並列分岐による空間的特徴とスペクトル的特徴を統合した2分岐残差ネットワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T02:04:49Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - Domain Generalisation for Object Detection under Covariate and Concept Shift [10.32461766065764]
ドメインの一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変の機能の学習を促進することを目的としている。
オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-10T11:14:18Z) - Dispensed Transformer Network for Unsupervised Domain Adaptation [21.256375606219073]
本稿では,新しい非教師付き領域適応 (UDA) 方式であるディスペンデントトランスフォーマーネットワーク (DTNet) について述べる。
提案するネットワークは,いくつかの最先端技術と比較して,最高の性能を実現している。
論文 参考訳(メタデータ) (2021-10-28T08:27:44Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。