論文の概要: APRIL-GAN: A Zero-/Few-Shot Anomaly Classification and Segmentation
Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on
Zero-shot AD and 4th Place on Few-shot AD
- arxiv url: http://arxiv.org/abs/2305.17382v3
- Date: Wed, 11 Oct 2023 07:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:40:13.892186
- Title: APRIL-GAN: A Zero-/Few-Shot Anomaly Classification and Segmentation
Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on
Zero-shot AD and 4th Place on Few-shot AD
- Title(参考訳): APRIL-GAN: CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD
- Authors: Xuhai Chen, Yue Han, Jiangning Zhang
- Abstract要約: 本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのZero/Few-shot Trackに対する解決策を提案する。
提案手法はゼロショットトラックにおいて,特にセグメンテーションにおいて優れていた。
数ショットのトラックでは、F1の分類スコアが全参加チームの中で第1位となり、総合4位を確保しました。
- 参考スコア(独自算出の注目度): 21.493718012180643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we briefly introduce our solution for the
Zero/Few-shot Track of the Visual Anomaly and Novelty Detection (VAND) 2023
Challenge. For industrial visual inspection, building a single model that can
be rapidly adapted to numerous categories without or with only a few normal
reference images is a promising research direction. This is primarily because
of the vast variety of the product types. For the zero-shot track, we propose a
solution based on the CLIP model by adding extra linear layers. These layers
are used to map the image features to the joint embedding space, so that they
can compare with the text features to generate the anomaly maps. Besides, when
the reference images are available, we utilize multiple memory banks to store
their features and compare them with the features of the test images during the
testing phase. In this challenge, our method achieved first place in the
zero-shot track, especially excelling in segmentation with an impressive F1
score improvement of 0.0489 over the second-ranked participant. Furthermore, in
the few-shot track, we secured the fourth position overall, with our
classification F1 score of 0.8687 ranking first among all participating teams.
- Abstract(参考訳): 本報告では,視覚異常と新奇性検出(vand)2023チャレンジのゼロ/フェーショットトラックの解法を簡潔に紹介する。
産業用視覚検査では、通常の参照画像がなければ、あるいはわずか数個の参照画像で、多数のカテゴリに迅速に適応できる単一のモデルを構築することが、有望な研究方向である。
これは主に製品タイプが多種多様であるためである。
ゼロショットトラックでは、余分な線形層を追加してCLIPモデルに基づく解を提案する。
これらのレイヤーは画像特徴をジョイント埋め込み空間にマッピングするために使用され、テキスト特徴と比較して異常マップを生成することができる。
さらに、参照画像が利用可能である場合には、複数のメモリバンクを使用して、それらの特徴を格納し、テストフェーズにおけるテスト画像の特徴と比較する。
この課題において,本手法はゼロショットトラックにおいて,特にセグメンテーションに優れ,F1スコアは第2ランクの参加者よりも0.0489向上した。
さらに,全参加チームの中ではF1のスコアが0.8687で,第4位を総合的に確保した。
関連論文リスト
- Towards Zero-Shot Camera Trap Image Categorization [0.0]
本稿では,カメラトラップ画像の自動分類に対する代替手法の探索について述べる。
すべての画像に対して単一のモデルを用いて最先端の分類器をベンチマークする。
次に,MegaDetectorを1つ以上の分類器とSegment Anythingを組み合わせて,位置特化オーバーフィッティングの低減効果を評価する。
最後に,DINOv2,BioCLIP,BLIP,ChatGPTなどの大規模言語モデルと基礎モデルを用いて,ゼロショットシナリオで2つのアプローチを提案し,検証する。
論文 参考訳(メタデータ) (2024-10-16T17:44:58Z) - AIM 2024 Sparse Neural Rendering Challenge: Methods and Results [64.19942455360068]
本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。
この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。
参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
論文 参考訳(メタデータ) (2024-09-23T14:17:40Z) - Few-Shot Anomaly Detection via Category-Agnostic Registration Learning [65.64252994254268]
既存のほとんどの異常検出方法は、各カテゴリに専用のモデルを必要とする。
この記事では、新しい数ショットAD(FSAD)フレームワークを提案する。
これは新しいカテゴリーのモデル微調整を必要としない最初のFSAD法である。
論文 参考訳(メタデータ) (2024-06-13T05:01:13Z) - MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with
Mutual Scoring of the Unlabeled Images [12.48347948647802]
産業ビジョンにおけるゼロショット異常分類(AC)とセグメンテーション(AS)について検討した。
我々は、識別特性を利用して、ラベルなし画像のMutual Scoring (MuSc) による新しいゼロショットAC/AS法を設計する。
本稿では,画像レベルの異常分類のためのRe-scoring with Constrained Image-level Neighborhood (RsCIN)という最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T05:16:52Z) - Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。
WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。
パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文 参考訳(メタデータ) (2023-06-15T16:43:07Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Self-supervised Image-specific Prototype Exploration for Weakly
Supervised Semantic Segmentation [72.33139350241044]
画像レベルのラベルをベースとしたWSSS(Weakly Supervised Semantic COCO)は,アノテーションコストの低さから注目されている。
本稿では,画像特異的なプロトタイプ探索 (IPE) と汎用一貫性 (GSC) の喪失からなる画像固有プロトタイプ探索 (SIPE) を提案する。
SIPEは,画像レベルラベルのみを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-06T09:01:03Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Rail-5k: a Real-World Dataset for Rail Surface Defects Detection [10.387206647221626]
本稿では,実世界のアプリケーションシナリオにおける視覚アルゴリズムの性能をベンチマークするためのRail-5kデータセットを提案する。
われわれは、中国各地の鉄道から5万枚以上の高品質の画像を集め、1100枚の画像に注釈を付け、鉄道の専門家の助けを借りて、最も一般的な13種類の鉄道欠陥を特定した。
論文 参考訳(メタデータ) (2021-06-28T01:53:52Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Revisiting the Sibling Head in Object Detector [24.784483589579896]
本稿では,兄弟頭部の2つの対象関数間の空間的不整合がトレーニング過程を著しく損なうことを観察する。
分類と回帰を考えると、TSDは2つの非絡み合った提案を生成することによって空間次元からそれらを分離する。
驚いたことに、このシンプルなデザインは、MS COCOとGoogle OpenImageの両方のバックボーンとモデルを、一貫して3%のmAPで強化することができる。
論文 参考訳(メタデータ) (2020-03-17T05:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。