論文の概要: How Low Can You Go? Surfacing Prototypical In-Distribution Samples for
Unsupervised Anomaly Detection
- arxiv url: http://arxiv.org/abs/2312.03804v1
- Date: Wed, 6 Dec 2023 15:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:29:41.254128
- Title: How Low Can You Go? Surfacing Prototypical In-Distribution Samples for
Unsupervised Anomaly Detection
- Title(参考訳): どれくらい低いのか?
教師なし異常検出のための非定型的分布サンプル
- Authors: Felix Meissen, Johannes Getzner, Alexander Ziller, Georgios Kaissis,
Daniel Rueckert
- Abstract要約: 教師なし異常検出(UAD)は、ラベルなしの配布データのみをトレーニングすることで、大規模なラベル付け作業を軽減する。
ごく少数のトレーニングサンプルを使用することで、トレーニングデータセット全体のトレーニングと比較して、すでに一致し、場合によっては異常検出も改善できることが示されています。
- 参考スコア(独自算出の注目度): 56.06401423880554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised anomaly detection (UAD) alleviates large labeling efforts by
training exclusively on unlabeled in-distribution data and detecting outliers
as anomalies. Generally, the assumption prevails that large training datasets
allow the training of higher-performing UAD models. However, in this work, we
show that using only very few training samples can already match - and in some
cases even improve - anomaly detection compared to training with the whole
training dataset. We propose three methods to identify prototypical samples
from a large dataset of in-distribution samples. We demonstrate that by
training with a subset of just ten such samples, we achieve an area under the
receiver operating characteristics curve (AUROC) of $96.37 \%$ on CIFAR10,
$92.59 \%$ on CIFAR100, $95.37 \%$ on MNIST, $95.38 \%$ on Fashion-MNIST,
$96.37 \%$ on MVTec-AD, $98.81 \%$ on BraTS, and $81.95 \%$ on RSNA pneumonia
detection, even exceeding the performance of full training in $25/67$ classes
we tested. Additionally, we show that the prototypical in-distribution samples
identified by our proposed methods translate well to different models and other
datasets and that using their characteristics as guidance allows for successful
manual selection of small subsets of high-performing samples. Our code is
available at https://anonymous.4open.science/r/uad_prototypical_samples/
- Abstract(参考訳): 教師なし異常検出(unsupervised anomaly detection, uad)はラベルなしの分布データのみをトレーニングし、異常値を検出することで、大きなラベル付け作業を軽減している。
一般的に、大きなトレーニングデータセットが高パフォーマンスなuadモデルのトレーニングを可能にするという仮定が通用する。
しかし、本研究では、トレーニングデータセット全体のトレーニングと比較して、非常に少ないトレーニングサンプルしか使用できないこと、場合によっては異常検出を改善できることが示されている。
本研究では,分布サンプルの大規模データセットから原型標本を同定する3つの手法を提案する。
このようなサンプルを10個に限定してトレーニングすることで、cifar10で96.37ドル、cifar100で95.9ドル、mnistで95.37ドル、ファッションmnistで95.38ドル、mvtec-adで96.37ドル、bratsで98.81ドル、rsna肺炎検出で81.95ドル、テストした25/67ドルのクラスでフルトレーニングの成績を上回っても、受信者の動作特性曲線(auroc)の下での領域が達成できることを実証した。
さらに,提案手法によって同定された原型内分布サンプルは,異なるモデルや他のデータセットによく翻訳され,その特徴をガイダンスとして利用することで,高性能サンプルの小さなサブセットを手作業で選択できることを示す。
私たちのコードはhttps://anonymous.4open.science/r/uad_prototypical_samples/で利用可能です。
関連論文リスト
- Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Self-supervised learning of multi-omics embeddings in the low-label,
high-data regime [0.0]
対照的に、自己教師型学習(SSL)は、ユニモーダル、mRNA、RPPAの発現データからがんのタイプを予測するモデルを訓練するために用いられる。
遅延融合モデルでは、各オミクスがそれぞれのサブネットワークに渡され、その出力が平均化され、事前学習または下流の目的関数に渡される。
マルチモーダルプレトレーニングは単一オミクスからの予測を改善することが示されており、多くの非ラベル付きマルチモーダルサンプルを持つデータセットでは有用であるが、ラベル付きサンプルはほとんどない。
論文 参考訳(メタデータ) (2023-11-16T15:32:22Z) - Bridging the Gap: Addressing Discrepancies in Diffusion Model Training
for Classifier-Free Guidance [1.6804613362826175]
拡散モデルは、生成モデルにおいて重要な進歩として現れている。
本稿では,従来の訓練方法と所望の条件付きサンプリング行動との相違点を明らかにすることを目的とする。
トレーニング目標とサンプリング行動との整合性を向上する改良された損失関数を導入する。
論文 参考訳(メタデータ) (2023-11-02T02:03:12Z) - DOS: Diverse Outlier Sampling for Out-of-Distribution Detection [18.964462007139055]
我々は,OOD検出性能の外れ値のサンプリングには多様性が重要であることを示した。
本稿では,多種多様かつ情報的外乱を選択するためにDOS (Diverse Outlier Smpling) という,単純で斬新なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-03T07:17:48Z) - Selecting Learnable Training Samples is All DETRs Need in Crowded
Pedestrian Detection [72.97320260601347]
混雑した歩行者検出では, サンプル選択法が不適切であるため, DETRの性能は相変わらず不満足である。
制約誘導ラベル割り当てスキーム(CGLA)からなる群集歩行者のサンプル選択を提案する。
実験の結果,提案したSSCPは推論のオーバーヘッドを発生させることなく,ベースラインを効果的に改善することがわかった。
論文 参考訳(メタデータ) (2023-05-18T08:28:01Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Binary classification with ambiguous training data [69.50862982117127]
教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
論文 参考訳(メタデータ) (2020-11-05T00:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。