論文の概要: Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention
for Predictive Process Monitoring
- arxiv url: http://arxiv.org/abs/2107.01905v1
- Date: Mon, 5 Jul 2021 09:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:01:50.140293
- Title: Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention
for Predictive Process Monitoring
- Title(参考訳): 予測プロセス監視のためのデータ漏洩防止による不正な公開ベンチマークデータセットの作成
- Authors: Hans Weytjens, Jochen De Weerdt
- Abstract要約: 本稿では、偏りのないベンチマークデータセットに原則的に到達するための前処理ステップを提案する。
これは、プレイフィールドのレベル付け、オープンサイエンスの推進、予測プロセス監視の急速な進歩への貢献を目的としている。
- 参考スコア(独自算出の注目度): 0.15229257192293202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advances in AI, and especially machine learning, are increasingly drawing
research interest and efforts towards predictive process monitoring, the
subfield of process mining (PM) that concerns predicting next events, process
outcomes and remaining execution times. Unfortunately, researchers use a
variety of datasets and ways to split them into training and test sets. The
documentation of these preprocessing steps is not always complete.
Consequently, research results are hard or even impossible to reproduce and to
compare between papers. At times, the use of non-public domain knowledge
further hampers the fair competition of ideas. Often the training and test sets
are not completely separated, a data leakage problem particular to predictive
process monitoring. Moreover, test sets usually suffer from bias in terms of
both the mix of case durations and the number of running cases. These obstacles
pose a challenge to the field's progress. The contribution of this paper is to
identify and demonstrate the importance of these obstacles and to propose
preprocessing steps to arrive at unbiased benchmark datasets in a principled
way, thus creating representative test sets without data leakage with the aim
of levelling the playing field, promoting open science and contributing to more
rapid progress in predictive process monitoring.
- Abstract(参考訳): AI、特に機械学習の進歩は、次のイベントの予測、プロセスの成果、そして残りの実行時間に関するプロセスマイニング(PM)のサブフィールドである予測プロセス監視に対する研究の関心と取り組みをますます引き寄せている。
残念なことに、研究者はさまざまなデータセットと方法でそれらをトレーニングとテストセットに分割する。
これらの前処理ステップのドキュメントは、必ずしも完成していない。
その結果、研究結果の再現や論文の比較は困難、あるいは不可能である。
時として、パブリックでないドメイン知識の使用は、アイデアの公正な競争をさらに妨げている。
トレーニングとテストセットは完全には分離されていないことが多いが、予測プロセスの監視に特有なデータ漏洩問題である。
さらに、テストセットは通常、ケースの持続時間と実行中のケースの数の混合という観点でバイアスを被る。
これらの障害は、フィールドの進行に挑戦する。
本研究の目的は,これらの障害を識別し,実証し,未バイアスのベンチマークデータセットに到達するための前処理ステップを原則的に提案することであり,これにより,実験領域の平準化,オープンサイエンスの推進,予測プロセス監視の急速な進歩に寄与することを目的として,データ漏洩を伴わない代表的テストセットを作成することである。
関連論文リスト
- Enhancing the Accuracy of Predictors of Activity Sequences of Business
Processes [0.9668407688201361]
ケースサフィックスの予測は、リソーススケジュールの異なる短期的なワークロードと実行時間を見積もる入力を提供する。
この問題に対処する既存の方法は、いくつかのアクティビティが何度も繰り返される接尾辞を生成することが多いが、このパターンはデータでは観測されない。
本稿では,予測された症例接尾辞における活動の繰り返しを軽減するためのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-09T12:16:58Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Event Log Sampling for Predictive Monitoring [0.3425341633647624]
本稿では,予測モデルのためのトレーニングプロセスインスタンスのサンプリングを可能にするインスタンス選択手法を提案する。
本手法は,次の活動予測法において,信頼性の高い予測精度を維持しつつ,トレーニング速度を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-04T13:36:48Z) - What Averages Do Not Tell -- Predicting Real Life Processes with
Sequential Deep Learning [0.1376408511310322]
プロセスマイニング(Process Mining)は、システムによってログされた実行データからビジネスプロセスに関する洞察を発見すること。
多くのディープラーニング技術が、プロセス結果の予測を目的とした予測プロセスマイニングに成功している。
プロセスマイニングのトレースはマルチモーダルシーケンスであり、自然言語の文や画像とは全く異なる構造である。
論文 参考訳(メタデータ) (2021-10-19T19:45:05Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - MTP: Multi-Hypothesis Tracking and Prediction for Reduced Error
Propagation [39.41917241231786]
本稿では,トラッキングモジュールと予測モジュールの結合に着目し,カスケードエラーの問題に対処する。
最先端の追跡・予測ツールを用いて,追跡による誤差が予測性能に与える影響を総合的に評価した。
このフレームワークは、nuScenesデータセット上で標準の単一仮説追跡予測パイプラインを最大34.2%改善する。
論文 参考訳(メタデータ) (2021-10-18T17:30:59Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。