論文の概要: Comparison of Outlier Detection Algorithms on String Data
- arxiv url: http://arxiv.org/abs/2603.11049v1
- Date: Tue, 13 Jan 2026 13:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.592582
- Title: Comparison of Outlier Detection Algorithms on String Data
- Title(参考訳): 文字列データにおける外乱検出アルゴリズムの比較
- Authors: Philip Maus,
- Abstract要約: 堅牢な文字列データアウトレイラ検出アルゴリズムは、システムログファイルのデータのクリーニングや異常検出を支援することができる。
本稿では,2つの文字列外乱検出アルゴリズムを比較する。まず,文字列データ上の外乱検出に適した,よく知られた局所外乱係数アルゴリズムの変種を導入する。
次に、階層的な左正規表現学習者に基づく新しい種類の外れ値検出アルゴリズムを導入し、予測されたデータに対して正規表現を推論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outlier detection is a well-researched and crucial problem in machine learning. However, there is little research on string data outlier detection, as most literature focuses on outlier detection of numerical data. A robust string data outlier detection algorithm could assist with data cleaning or anomaly detection in system log files. In this thesis, we compare two string outlier detection algorithms. Firstly, we introduce a variant of the well-known local outlier factor algorithm, which we tailor to detect outliers on string data using the Levenshtein measure to calculate the density of the dataset. We present a differently weighted Levenshtein measure, which considers hierarchical character classes and can be used to tune the algorithm to a specific string dataset. Secondly, we introduce a new kind of outlier detection algorithm based on the hierarchical left regular expression learner, which infers a regular expression for the expected data. Using various datasets and parameters, we experimentally show that both algorithms can conceptually find outliers in string data. We show that the regular expression-based algorithm is especially good at finding outliers if the expected values have a distinct structure that is sufficiently different from the structure of the outliers. In contrast, the local outlier factor algorithms are best at finding outliers if their edit distance to the expected data is sufficiently distinct from the edit distance between the expected data.
- Abstract(参考訳): 外乱検出は、機械学習においてよく研究され、重要な問題である。
しかし、ほとんどの文献では数値データの外乱検出に重点を置いているため、文字列データの外乱検出についてはほとんど研究されていない。
堅牢な文字列データアウトレイラ検出アルゴリズムは、システムログファイルのデータのクリーニングや異常検出を支援することができる。
本論文では,2つの文字列外乱検出アルゴリズムを比較した。
まず,Lvenshtein測度を用いて文字列データ上の外れ値を検出し,データセットの密度を計算するアルゴリズムを提案する。
階層的な文字クラスを考慮し,アルゴリズムを特定の文字列データセットにチューニングすることのできる,異なる重み付けのLevenshtein測度を提案する。
次に、階層的な左正規表現学習者に基づく新しい種類の外れ値検出アルゴリズムを導入し、予測されたデータに対して正規表現を推論する。
各種データセットとパラメータを用いて,両アルゴリズムが文字列データから外接点を概念的に発見できることを実験的に示す。
正規表現に基づくアルゴリズムは、期待値が外乱構造と十分に異なる構造を持つ場合、外乱構造を見つけるのに特に優れていることを示す。
対照的に、期待データとの編集距離が、期待データ間の編集距離と十分に異なる場合、ローカルなアウトリーチ係数アルゴリズムは、アウトリーチを見つけるのに最適である。
関連論文リスト
- Outlier detection in mixed-attribute data: a semi-supervised approach with fuzzy approximations and relative entropy [44.721694491724406]
外乱検出はデータマイニングにおいて重要なタスクであり、標準から著しく逸脱するオブジェクトを特定することを目的としている。
本稿では,半教師付き外乱検出法,すなわちファジィ粗集合に基づく外乱検出(FROD)を提案する。
16の公開データセットの実験結果は、FRODが先行する検出アルゴリズムと同等かそれ以上であることを示している。
論文 参考訳(メタデータ) (2025-12-22T02:41:43Z) - Consistency-guided semi-supervised outlier detection in heterogeneous data using fuzzy rough sets [45.9876416284051]
Outlier Detectionは、データの大部分と異なる振る舞いをするサンプルを見つけることを目的としている。
半教師付き検出法は部分ラベルの監督を利用でき、偽陽性率を低減できる。
半教師付き方式でファジィ粗セット理論を用いた不均一データに対する一貫性誘導型外乱検出アルゴリズム(COD)を提案する。
論文 参考訳(メタデータ) (2025-12-22T02:41:08Z) - Feature Explosion: a generic optimization strategy for outlier detection algorithms [8.206124331448931]
外乱検出タスクは潜在的な問題や機会を発見することを目的としている。
何千もの異常検出アルゴリズムが提案されている。
この冗長性の根本原因は、現在の高度にカスタマイズされた(非汎用的な)最適化戦略にある。
論文 参考訳(メタデータ) (2025-02-08T08:58:12Z) - Fuzzy Granule Density-Based Outlier Detection with Multi-Scale Granular Balls [65.44462297594308]
外乱検出は、正常なデータの分布から大きく逸脱する異常なサンプルの同定を指す。
ほとんどの教師なしの外れ値検出方法は、指定された外れ値を検出するために慎重に設計されている。
ファジィ粗集合に基づくマルチスケールアウトレイラ検出手法を提案し,様々な種類のアウトレイラを同定する。
論文 参考訳(メタデータ) (2025-01-06T12:35:51Z) - Unsupervised anomaly detection algorithms on real-world data: how many
do we need? [1.4610038284393165]
この研究は、これまでで最大の教師なし異常検出アルゴリズムの比較である。
ローカルデータセットでは、$k$NN ($k$-nearest neighbor)アルゴリズムがトップに表示される。
グローバルデータセットでは、EDF(extended isolation forest)アルゴリズムが最善を尽くしている。
論文 参考訳(メタデータ) (2023-05-01T09:27:42Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [70.45113777449373]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上で重要な課題は、公開された金標準データの欠如である。
研究コミュニティにリリースした類似度スコアの新しいデータセットを収集します。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - From One to Many: A Deep Learning Coincident Gravitational-Wave Search [58.720142291102135]
単一検出器からの非スピン型二元ブラックホールデータに基づいてトレーニングされたニューラルネットワークを用いて、二元ブラックホールの融合から重力波を2検出器で探索する。
これらの単純な2検出器ネットワークはいずれも、検出器のデータに個別にネットワークを適用するよりも感度を向上させることができない。
論文 参考訳(メタデータ) (2021-08-24T13:25:02Z) - Unsupervised Outlier Detection using Memory and Contrastive Learning [53.77693158251706]
特徴空間における外乱検出は,外乱検出から外乱検出までの特徴距離を測定することで行うことができると考えている。
本稿では,メモリモジュールとコントラスト学習モジュールを用いたMCODフレームワークを提案する。
提案したMCODは高い性能を達成し,9つの最先端手法より優れる。
論文 参考訳(メタデータ) (2021-07-27T07:35:42Z) - Achieving differential privacy for $k$-nearest neighbors based outlier
detection by data partitioning [0.3437656066916039]
我々は、$k$-NNに基づく外乱検出のための差分プライベート(epsilon$-DP)アプローチを開発した。
提案手法は,提案手法を参照不整合データに対する適合ステップに分離し,新しいデータに適用することで,$k$-NNに基づく外れ値検出を行う手法である。
提案手法は,$k$-NNの非プライベートバージョンと比較して,次元の異なる実世界のデータに対して,ほぼ最適な性能が得られる。
論文 参考訳(メタデータ) (2021-04-16T07:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。