論文の概要: Automated, Unsupervised, and Auto-parameterized Inference of Data Patterns and Anomaly Detection
- arxiv url: http://arxiv.org/abs/2412.05240v1
- Date: Fri, 06 Dec 2024 18:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:50.277629
- Title: Automated, Unsupervised, and Auto-parameterized Inference of Data Patterns and Anomaly Detection
- Title(参考訳): データパターンの自動、教師なし、自動パラメータ化推論と異常検出
- Authors: Qiaolin Qin, Heng Li, Ettore Merlo, Maxime Lamothe,
- Abstract要約: RIOLUは完全に自動化され、自動的にパラメータ化され、ラベル付きサンプルを必要としない。
RIOLUはさまざまな領域のデータセットから正確なパターンを生成することができ、高いF1スコアは97.2%である。
RIOLUの派生版は、ユーザーガイダンスによってさらに精度を高め、F1では最大37.4%改善されている。
- 参考スコア(独自算出の注目度): 6.454528834218153
- License:
- Abstract: With the advent of data-centric and machine learning (ML) systems, data quality is playing an increasingly critical role in ensuring the overall quality of software systems. Data preparation, an essential step towards high data quality, is known to be a highly effort-intensive process. Although prior studies have dealt with one of the most impacting issues, data pattern violations, these studies usually require data-specific configurations (i.e., parameterized) or use carefully curated data as learning examples (i.e., supervised), relying on domain knowledge and deep understanding of the data, or demanding significant manual effort. In this paper, we introduce RIOLU: Regex Inferencer auto-parameterized Learning with Uncleaned data. RIOLU is fully automated, automatically parameterized, and does not need labeled samples. RIOLU can generate precise patterns from datasets in various domains, with a high F1 score of 97.2%, exceeding the state-of-the-art baseline. In addition, according to our experiment on five datasets with anomalies, RIOLU can automatically estimate a data column's error rate, draw normal patterns, and predict anomalies from unlabeled data with higher performance (up to 800.4% improvement in terms of F1) than the state-of-the-art baseline, even outperforming ChatGPT in terms of both accuracy (12.3% higher F1) and efficiency (10% less inference time). A variant of RIOLU, with user guidance, can further boost its precision, with up to 37.4% improvement in terms of F1. Our evaluation in an industrial setting further demonstrates the practical benefits of RIOLU.
- Abstract(参考訳): データ中心と機械学習(ML)システムの出現により、ソフトウェアシステム全体の品質を保証する上で、データ品質はますます重要な役割を担っている。
高いデータ品質に向けた重要なステップであるデータ準備は、非常に労力を要するプロセスであることが知られている。
以前の研究では、最も影響の大きい問題、すなわちデータパターン違反に対処してきたが、これらの研究は通常、データ固有の構成(パラメータ化)を必要とするか、学習例(例えば、教師あり)として慎重にキュレートされたデータを使用するか、ドメイン知識とデータに対する深い理解に依存するか、あるいは重要な手作業を必要とする。
本稿では,RIOLU: Regex Inferencerによる非クリーンデータによる自動パラメータ学習について紹介する。
RIOLUは完全に自動化され、自動的にパラメータ化され、ラベル付きサンプルを必要としない。
RIOLUはさまざまな領域のデータセットから正確なパターンを生成でき、F1スコアは97.2%であり、最先端のベースラインを超えている。
さらに、異常のある5つのデータセットに関する実験によると、ROOLUはデータ列のエラー率を自動的に推定し、正常なパターンを描画し、最新技術ベースラインよりも高いパフォーマンス(F1では最大800.4%改善)でラベル付けされていないデータから異常を予測し、精度(12.3%高いF1)と効率(10%低い推論時間)の両方でChatGPTを上回ります。
RIOLUの派生版は、ユーザーガイダンスによってさらに精度を高め、F1では最大37.4%改善されている。
産業環境での評価は、RIOLUの実用的メリットをさらに示している。
関連論文リスト
- Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Dataset Fusion Algorithm for Generalised Anomaly Detection in
Homogeneous Periodic Time Series Datasets [0.0]
データセットフュージョン(Dataset Fusion)とは、複数の同種データセットからの周期的な信号を単一のデータセットに融合するアルゴリズムである。
提案手法は,平均F1スコア0.879で従来の訓練方法よりも有意に優れていた。
その結果、トレーニングデータの6.25%しか使用せず、計算能力の93.7%削減に換算すると、パフォーマンスは4.04%低下することがわかった。
論文 参考訳(メタデータ) (2023-05-14T16:24:09Z) - Systematic Evaluation of Deep Learning Models for Log-based Failure Prediction [3.3810628880631226]
本稿では,障害予測のためのログデータ埋め込み戦略とディープラーニング(DL)タイプの組み合わせを系統的に検討する。
そこで我々は,組込み戦略とDLベースのエンコーダの様々な構成に対応するモジュールアーキテクチャを提案する。
また,F1スコア測定値を用いて,Logkey2vecを用いたCNNベースのエンコーダが最適であることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:04:14Z) - RLAD: Time Series Anomaly Detection through Reinforcement Learning and
Active Learning [17.089402177923297]
新しい半監視型時系列異常検出アルゴリズムを紹介します。
深層強化学習とアクティブラーニングを使用して、実世界の時系列データの異常を効率的に学習し、適応する。
パラメータを手動でチューニングする必要はなく、比較するすべての最先端のメソッドを上回ります。
論文 参考訳(メタデータ) (2021-03-31T15:21:15Z) - AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation [3.118384520557952]
AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
バイアスデータやノイズデータに適用した場合,これらの手法は堅牢ではないことを示す。
AutoAugmentを汎用的な自動データセット最適化(AutoDO)タスクとして再構成します。
従来の手法と比較して,ラベルノイズのあるバイアス付きデータセットは最大9.3%改善した。
論文 参考訳(メタデータ) (2021-03-10T04:05:33Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。