論文の概要: Rethinking Weak Supervision in Anomaly Detection: A Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2605.26068v2
- Date: Tue, 26 May 2026 05:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.178096
- Title: Rethinking Weak Supervision in Anomaly Detection: A Comprehensive Benchmark
- Title(参考訳): 異常検出における弱スーパービジョンの再考:総合ベンチマーク
- Authors: Xu Yao, Siyuan Zhou, Zhenbo Wu, Chaochuan Hou, Shuang Liang, Shiping Wang, Hailiang Huang, Songqiao Han, Minqi Jiang,
- Abstract要約: 本稿では、WSADBenchについて紹介する。WSADBenchは、異なる弱い教師付きシナリオで評価を統一する最初のベンチマークである。
700K以上の実験に基づいて、WSADBenchは4つの重要な洞察を明らかにしている。
- 参考スコア(独自算出の注目度): 41.98173822607898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised anomaly detection (WSAD) has developed in three primary directions: incomplete, inexact, and inaccurate supervision. However, these directions remain isolated, lacking a unified framework to assess whether they address unique challenges or share fundamental mechanics. This paper introduces WSADBench, the first benchmark that unifies evaluation across distinct weakly supervised scenarios, benchmarking diverse approaches from specialized WSAD methods to advanced tabular foundation models. WSADBench establishes standardized protocols to evaluate 36 algorithms across 4 modalities by systematically varying label quantity, granularity, and quality, revealing the performance boundaries of various methods. Based on over 700K experiments, WSADBench reveals four critical insights: (i) Strong intrinsic correlations exist between these weak supervision scenarios, challenging the isolation of current research directions. (ii) Specialized WSAD algorithms excel only in extreme label-scarcity regimes but are quickly dominated by tabular foundation models and general classification methods as supervision increases or in OOD scenarios. (iii) Unlabeled data shows inconsistent utility across settings, with marginal gains compared to label refinement. (iv) Models exhibit asymmetric sensitivity to different types of label noise. We release WSADBench as an open-source benchmark with code and datasets to facilitate future WSAD research: https://github.com/SUFE-AILAB/WSADBench.
- Abstract(参考訳): 弱教師付き異常検出(WSAD)は,不完全,不完全,不正確な3方向に発達している。
しかし、これらの方向は依然として孤立しており、固有の課題に対処するか、基本的な仕組みを共有するかを評価するための統一された枠組みが欠如している。
本稿では,WSADベンチについて紹介する。WSADベンチは,特定のWSAD手法から先進的な表層基礎モデルへの多様なアプローチをベンチマークし,弱い教師付きシナリオ間で評価を統一する最初のベンチマークである。
WSADBenchは、ラベル量、粒度、品質を体系的に変化させることで、4つのモダリティにまたがる36のアルゴリズムを評価するための標準化されたプロトコルを確立し、様々な手法のパフォーマンス境界を明らかにする。
700K以上の実験に基づいて、WSADBenchは4つの重要な洞察を明らかにした。
(i)これらの弱い監督シナリオの間には強い内在的相関が存在し、現在の研究方向の分離に挑戦する。
(II) 特殊化WSADアルゴリズムは, 極端なラベル・スカーシティ・レシエーションにのみ優れるが, 監督の増大やOODシナリオにおいて, 表層基盤モデルや一般的な分類法に急速に支配されている。
(iii)ラベルなしデータは、ラベルの精錬に比べて利得が限界であり、設定間で不整合性を示す。
(4)異なる種類のラベルノイズに対して非対称な感度を示すモデル。
私たちは、将来のWSAD研究を促進するために、コードとデータセットを備えたオープンソースのベンチマークとしてWSADBenchをリリースした。
関連論文リスト
- Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework [0.0]
生産エージェントシステムに特有の7つの障害モードの分類法を提案する。
標準メトリクスは、7つの障害モードのうち4つを完全に検出することができない。
オープンソースの参照実装を備えた5次元評価フレームワークPAEFを提案する。
論文 参考訳(メタデータ) (2026-05-02T21:02:08Z) - EXHIB: A Benchmark for Realistic and Diverse Evaluation of Function Similarity in the Wild [9.69274678999646]
野生から収集した5つの現実的なデータセットからなるベンチマークであるEXHIBを紹介する。
EXHIB上で複数のBFSDパラダイムにまたがる9つの代表モデルを評価する。
その結果、低レベルと中レベルのバイナリの変動に対する頑健さは、高レベルのセマンティックな違いに一般化されないことがわかった。
論文 参考訳(メタデータ) (2026-04-02T02:58:55Z) - DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning [64.33887406863899]
マルチモーダル偽装検出は、法医学とセキュリティのための聴覚的手がかりを解析することにより、偽装行動を特定することを目的としている。
既存のベンチマークでは、中間的な推論手段を使わずにバイナリラベルのみを提供する。
構造的キューレベルの記述と推論チェーンを用いた推論データセットを構築した。
1695年のサンプルでは、非実験的偽装検出データセットとしては最大である。
論文 参考訳(メタデータ) (2026-03-25T04:06:36Z) - Refining Decision Boundaries In Anomaly Detection Using Similarity Search Within the Feature Space [3.3202103799131795]
SDA2E(Sparse Dual Adversarial Attention-based AutoEncoder)を導入する。
本稿では,意思決定境界を効率的に洗練するための3つの新しい戦略を統合した類似性誘導型アクティブラーニングフレームワークを提案する。
SDA2Eは、複数のDARPAトランスペアレントコンピューティングシナリオを含む52の不均衡データセットにわたって広範囲に評価し、15の最先端の異常検出手法と比較した。
論文 参考訳(メタデータ) (2026-02-02T23:55:08Z) - Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robust Comparison of Embedding Methods [0.0]
OpenAI(General-purpose Embedder)は,3万の意思決定に対して,ドメイン固有のBERTトレーニングをゼロから実行する。
我々のフレームワークは、ノイズの多い金のデータセットで評価するのに十分な頑健である。
論文 参考訳(メタデータ) (2025-12-05T12:54:26Z) - Labels Matter More Than Models: Quantifying the Benefit of Supervised Time Series Anomaly Detection [56.302586730134806]
時系列異常検出(TSAD)は、しばしばラベル不足によって制約される重要なデータマイニングタスクである。
現在の研究は、主に教師なし時系列異常検出に焦点を当てている。
本稿では,アーキテクチャの複雑さがTSADの最適経路である,という前提に挑戦する。
論文 参考訳(メタデータ) (2025-11-20T08:32:49Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。