論文の概要: Efficient SVDD Sampling with Approximation Guarantees for the Decision
Boundary
- arxiv url: http://arxiv.org/abs/2009.13853v1
- Date: Tue, 29 Sep 2020 08:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:26:24.337361
- Title: Efficient SVDD Sampling with Approximation Guarantees for the Decision
Boundary
- Title(参考訳): 近似保証を用いた決定境界の効率的なSVDDサンプリング
- Authors: Adrian Englhardt, Holger Trittenbach, Daniel Kottke, Bernhard Sick,
and Klemens B\"ohm
- Abstract要約: Support Vector Data Description (SVDD) は、異常と新規性検出のための一般的な1クラス分類器である。
その有効性にもかかわらず、SVDDはデータサイズに匹敵しない。
本稿では,これらの点を考慮したサンプルの選択方法について検討する。
提案手法は,SVDDサンプリングを最適化問題として,サンプリングが元の決定境界を実際に近似していることを保証する。
- 参考スコア(独自算出の注目度): 7.251418581794502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Support Vector Data Description (SVDD) is a popular one-class classifiers for
anomaly and novelty detection. But despite its effectiveness, SVDD does not
scale well with data size. To avoid prohibitive training times, sampling
methods select small subsets of the training data on which SVDD trains a
decision boundary hopefully equivalent to the one obtained on the full data
set. According to the literature, a good sample should therefore contain
so-called boundary observations that SVDD would select as support vectors on
the full data set. However, non-boundary observations also are essential to not
fragment contiguous inlier regions and avoid poor classification accuracy.
Other aspects, such as selecting a sufficiently representative sample, are
important as well. But existing sampling methods largely overlook them,
resulting in poor classification accuracy. In this article, we study how to
select a sample considering these points. Our approach is to frame SVDD
sampling as an optimization problem, where constraints guarantee that sampling
indeed approximates the original decision boundary. We then propose RAPID, an
efficient algorithm to solve this optimization problem. RAPID does not require
any tuning of parameters, is easy to implement and scales well to large data
sets. We evaluate our approach on real-world and synthetic data. Our evaluation
is the most comprehensive one for SVDD sampling so far. Our results show that
RAPID outperforms its competitors in classification accuracy, in sample size,
and in runtime.
- Abstract(参考訳): Support Vector Data Description (SVDD) は、異常と新規性検出のための一般的な一級分類器である。
しかし、その有効性にもかかわらず、SVDDはデータサイズに匹敵しない。
制限的なトレーニング時間を回避するため、サンプリング方法は、svddが決定境界を訓練するトレーニングデータの小さなサブセットを選択できる。
文献によれば、良いサンプルは、SVDDが完全なデータセットの支持ベクトルとして選ぶような境界観測を含むべきである。
しかし、非境界観測は、連続した不整領域を分解し、分類精度の低下を避けるためにも不可欠である。
十分に代表的なサンプルを選択するといった他の側面も重要である。
しかし、既存のサンプリング手法はほとんど見落としており、分類精度は低い。
本稿では,これらの点を考慮したサンプル選択法について検討する。
我々のアプローチは,SVDDサンプリングを最適化問題として,サンプリングが元の決定境界を実際に近似していることを保証する。
次に、この最適化問題を解決する効率的なアルゴリズムRAPIDを提案する。
RAPIDはパラメータのチューニングを一切必要とせず、実装が容易で、大規模なデータセットによく対応している。
実世界および合成データに対する我々のアプローチを評価する。
我々の評価はSVDDサンプリングにおける最も包括的な評価である。
その結果, RAPIDは, 分類精度, サンプルサイズ, 実行時において, 競合他社よりも優れていた。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文 参考訳(メタデータ) (2024-06-05T08:33:09Z) - Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification [1.03590082373586]
本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
論文 参考訳(メタデータ) (2023-10-09T15:22:13Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - A sub-sampling algorithm preventing outliers [0.0]
我々は、高レバレッジポイントを使わずに、ほぼD-最適部分集合を選択できる教師なし交換手順を提案する。
また、この交換手順の教師付きバージョンを提供し、高いレバレッジポイントに加えて、応答の外れ値も避ける。
教師なしの選択手順と教師なしの選択手順は、正確な予測を得ることを目的として、I-最適性に一般化される。
論文 参考訳(メタデータ) (2022-08-12T11:03:57Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - AdAUC: End-to-end Adversarial AUC Optimization Against Long-tail
Problems [102.95119281306893]
我々は、AUCを最適化するための敵の訓練方法を探求するための早期トライアルを提示する。
我々は、AUC最適化問題をサドル点問題として再構成し、目的がインスタンスワイズ関数となる。
我々の分析は, min-max問題の勾配を計算して, 逆例を生成するアルゴリズムが求められているため, 既存の研究と異なる。
論文 参考訳(メタデータ) (2022-06-24T09:13:39Z) - A Robust Optimization Method for Label Noisy Datasets Based on Adaptive
Threshold: Adaptive-k [0.0]
SGDはラベルノイズのあるデータセットに対してロバストな結果を出さない。
本稿では,ミニバッチのすべてのサンプルを使用する代わりに,最適化プロセス中に決定される閾値未満の損失を持つサンプルを使用することを推奨する。
提案手法であるAdaptive-kは,ラベルノイズサンプルを最適化プロセスから排除し,その処理を堅牢化することを目的としている。
論文 参考訳(メタデータ) (2022-03-26T21:48:12Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Tune it the Right Way: Unsupervised Validation of Domain Adaptation via
Soft Neighborhood Density [125.64297244986552]
本稿では,点間の類似度分布のエントロピーを計算し,ソフト近傍の密度を測定する教師なし検証基準を提案する。
私たちの基準は、競合する検証方法よりもシンプルですが、より効果的です。
論文 参考訳(メタデータ) (2021-08-24T17:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。