論文の概要: Zero-shot Outlier Detection via Prior-data Fitted Networks: Model Selection Bygone!
- arxiv url: http://arxiv.org/abs/2409.05672v2
- Date: Thu, 06 Feb 2025 19:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:19.123204
- Title: Zero-shot Outlier Detection via Prior-data Fitted Networks: Model Selection Bygone!
- Title(参考訳): 事前データフィットネットワークによるゼロショットアウトレイラ検出:モデル選択バイゴーン!
- Authors: Yuchen Shen, Haomin Wen, Leman Akoglu,
- Abstract要約: FoMo-0Dは、表データの0/0ショットODのための事前訓練されたファンデーションモデルである。
パラメータを微調整することなく、テストサンプルの(より低い/より低い)ラベルを直接予測できる。
57の実世界のデータセットの実験では、FoMo-0Dはベースラインの大部分を著しく上回っている。
- 参考スコア(独自算出の注目度): 28.823740273813296
- License:
- Abstract: Outlier detection (OD) has a vast literature as it finds numerous real-world applications. Being an inherently unsupervised task, model selection is a key bottleneck for OD without label supervision. Despite many OD techniques are available to choose from, algorithm and hyperparameter selection remain challenging for OD, limiting its effective use in practice. In this paper, we present FoMo-0D, a pre-trained Foundation Model for zero/0-shot OD on tabular data, which bypasses the hurdle of model selection. To overcome the difficulty of labeled data collection, FoMo-0D is trained on synthetic data and can directly predict the (outlier/inlier) label of test samples without parameter fine-tuning -- making the need obsolete for choosing an algorithm/architecture and tuning its associated hyperparameters when given a new OD dataset. Extensive experiments on 57 real-world datasets against 26 baselines show that FoMo-0D significantly outperforms the vast majority of the baselines and is statistically no different from the 2nd best method, with an average inference time of 7.7 ms per sample, offering at least 7x speed-up compared to previous methods. To facilitate future research, our implementations and checkpoints are openly available at https://anonymous.4open.science/r/PFN40D.
- Abstract(参考訳): 外乱検出(OD)は、多くの実世界の応用を見出すため、膨大な文献がある。
本質的に教師なしのタスクであるモデル選択は、ラベルの監督なしにODにとって重要なボトルネックとなる。
多くのOD技術が選択できるが、アルゴリズムとハイパーパラメータの選択はODにとって困難なままであり、実際は有効利用を制限している。
本稿では,FoMo-0Dについて述べる。このFoMo-0Dは,0/0ショットODを表型データ上に学習し,モデル選択のハードルを回避した基礎モデルである。
ラベル付きデータ収集の難しさを克服するため、FoMo-0Dは合成データに基づいてトレーニングされており、パラメータの微調整なしにテストサンプルの(より不適切な)ラベルを直接予測することができる。
26のベースラインに対する57の実世界のデータセットに対する大規模な実験により、FoMo-0Dはベースラインの大部分を著しく上回り、統計的には第2のベストメソッドとほとんど変わらないことが示され、平均推定時間は1サンプルあたり7.7msであり、以前の手法と比べて少なくとも7倍のスピードアップを提供している。
今後の研究を促進するため、我々の実装とチェックポイントはhttps://anonymous.4open.science/r/PFN40Dで公開されています。
関連論文リスト
- Unsupervised Anomaly Detection for Tabular Data Using Noise Evaluation [26.312206159418903]
教師なし異常検出(UAD)は、現代のデータ分析において重要な役割を果たす。
データに含まれるノイズの量を評価することによって,新しいUAD手法を提案する。
提案手法が異常データの検出に有効であることを証明し,理論的保証を提供する。
論文 参考訳(メタデータ) (2024-12-16T05:35:58Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Unsupervised Model Selection for Time-series Anomaly Detection [7.8027110514393785]
提案手法は, 予測誤差, モデル中心性, および, 注入された合成異常に対する性能の3種類のサロゲート(教師なし)メトリクスを同定する。
我々は、厳密なランク集約問題として、複数の不完全なサロゲート指標との計量結合を定式化する。
複数の実世界のデータセットに対する大規模な実験は、我々の提案した教師なしアプローチが、最も正確なモデルを選択するのと同じくらい効果的であることを示す。
論文 参考訳(メタデータ) (2022-10-03T16:49:30Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Automating Outlier Detection via Meta-Learning [37.736124230543865]
メタ学習をベースとした,Overier検出のためのモデル選択のための,最初の原則付きデータ駆動型アプローチであるMetaODを開発した。
検出モデルの選択におけるMetaODの有効性を示す。
この新しい問題をさらに研究するために、私たちはメタラーニングシステム全体、ベンチマーク環境、テストベッドデータセットをオープンソース化しました。
論文 参考訳(メタデータ) (2020-09-22T15:14:45Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。