論文の概要: MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context
- arxiv url: http://arxiv.org/abs/2412.16897v1
- Date: Sun, 22 Dec 2024 07:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:22.951920
- Title: MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context
- Title(参考訳): MVREC:多視点領域コンテキストを用いた一般ショット欠陥分類モデル
- Authors: Shuai Lyu, Fangjian Liao, Zeqi Ma, Rongchen Zhang, Dongmei Mo, Waikeung Wong,
- Abstract要約: FSDMC(Few-shot defect multi-classification)は、製造業における品質管理の新たなトレンドである。
本稿では、欠陥インスタンスの一般的な特徴を抽出するMVRECと呼ばれる一般的なFSDMCフレームワークを提案する。
また、MVTec ADに基づく新しいFSDMCベンチマークであるMVTec-FSを導入し、インスタンスレベルのマスクアノテーションを備えた1228の欠陥画像を含む。
- 参考スコア(独自算出の注目度): 13.327278132432228
- License:
- Abstract: Few-shot defect multi-classification (FSDMC) is an emerging trend in quality control within industrial manufacturing. However, current FSDMC research often lacks generalizability due to its focus on specific datasets. Additionally, defect classification heavily relies on contextual information within images, and existing methods fall short of effectively extracting this information. To address these challenges, we propose a general FSDMC framework called MVREC, which offers two primary advantages: (1) MVREC extracts general features for defect instances by incorporating the pre-trained AlphaCLIP model. (2) It utilizes a region-context framework to enhance defect features by leveraging mask region input and multi-view context augmentation. Furthermore, Few-shot Zip-Adapter(-F) classifiers within the model are introduced to cache the visual features of the support set and perform few-shot classification. We also introduce MVTec-FS, a new FSDMC benchmark based on MVTec AD, which includes 1228 defect images with instance-level mask annotations and 46 defect types. Extensive experiments conducted on MVTec-FS and four additional datasets demonstrate its effectiveness in general defect classification and its ability to incorporate contextual information to improve classification performance. Code: https://github.com/ShuaiLYU/MVREC
- Abstract(参考訳): FSDMC(Few-shot defect multi-classification)は、製造業における品質管理の新たなトレンドである。
しかしながら、現在のFSDMCの研究は、特定のデータセットに焦点を当てているため、一般化性に欠けることが多い。
さらに、欠陥分類は画像内の文脈情報に大きく依存しており、既存の手法ではこの情報を効果的に抽出することができない。
これらの課題に対処するために、MVRECと呼ばれる一般的なFSDMCフレームワークを提案し、(1)MVRECは、事前訓練されたAlphaCLIPモデルを組み込むことで、欠陥インスタンスの一般的な特徴を抽出する。
2) マスク領域入力とマルチビューコンテキスト拡張を活用することにより, 欠陥機能の向上を図るために, 領域コンテキストフレームワークを利用する。
さらに、モデル内のFew-shot Zip-Adapter(-F)分類器を導入し、サポートセットの視覚的特徴をキャッシュし、少数ショット分類を実行する。
MVTec ADに基づく新しいFSDMCベンチマークであるMVTec-FSも導入した。
MVTec-FSと4つの追加データセットで実施された大規模な実験は、一般的な欠陥分類の有効性と、文脈情報を組み込んで分類性能を向上させる能力を示している。
コード:https://github.com/ShuaiLYU/MVREC
関連論文リスト
- Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection [8.23801404004195]
X線画像における禁止項目検出は、最も効果的なセキュリティ検査方法の1つである。
X線画像における特異な現象が重なり合うと、前景と背景の特徴が結合する。
コンテンツクエリのカテゴリ意味情報を明らかにするために,Multi-class Min-Margin Contrastive Learning (MMCL)法を提案する。
論文 参考訳(メタデータ) (2024-06-05T12:07:58Z) - Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset [7.1083241462091165]
従来の欠陥分類アプローチは2つの障壁に直面している。
不十分なトレーニングデータと不安定なデータ品質。
画像上に記録されたリッチなデータ記述を含む,欠陥分類のための特別なデータセットを提案するが,欠陥特徴を直接学習するのは困難である。
論文 参考訳(メタデータ) (2024-04-08T04:17:27Z) - Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:40:44Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Semi-supervised multi-view concept decomposition [30.699496411869834]
概念因子化(CF)は、マルチビュークラスタリングタスクにおいて優れた性能を示している。
そこで我々は,SMVCFという,新しい半教師付き多視点概念分解モデルを提案する。
SMVCFの性能を評価するために,4つの多様なデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-07-03T10:50:44Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。