論文の概要: Identifying the Key Attributes in an Unlabeled Event Log for Automated
Process Discovery
- arxiv url: http://arxiv.org/abs/2301.12829v1
- Date: Fri, 27 Jan 2023 13:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:00:32.972720
- Title: Identifying the Key Attributes in an Unlabeled Event Log for Automated
Process Discovery
- Title(参考訳): 自動プロセス発見のためのラベルなしイベントログの重要な属性の特定
- Authors: Kentaroh Toyoda, Rachel Gan Kai Ying, Allan NengSheng Zhang, Tan Puay
Siew
- Abstract要約: プロセスマイニングは、履歴イベントログからプロセスモデルを発見し、分析する。
従来のアートメソッドでは、イベントログに隠されたケースID、アクティビティ、タイムスタンプの属性を、プロセスモデルを見つける手がかりとして使用しています。
このような手動による調査を避けるために,2段階の鍵識別手法を提案する。
- 参考スコア(独自算出の注目度): 1.5293427903448018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process mining discovers and analyzes a process model from historical event
logs. The prior art methods use the attributes of case-id, activity, and
timestamp hidden in an event log as clues to discover a process model. However,
a user needs to manually specify them, and this can be an exhaustive task. In
this paper, we propose a two-stage key attribute identification method to avoid
such a manual investigation, and thus this is toward fully automated process
discovery. One of the challenging tasks is how to avoid exhaustive computation
due to combinatorial explosion. For this, we narrow down candidates for each
key attribute by using supervised machine learning in the first stage and
identify the best combination of the in the second stage. Our computational
complexity can be reduced from $\mathcal{O}(N^3)$ to $\mathcal{O}(k^3)$ where
$N$ and $k$ are the numbers of columns and candidates we keep in the first
stage, and usually $k$ is much smaller than $N$. We evaluated our method with
14 open datasets and showed that our method could identify the key attributes
even with $k = 2$ for about 20 seconds for many datasets.
- Abstract(参考訳): プロセスマイニングは、履歴イベントログからプロセスモデルを発見し、分析する。
先行技術手法では、イベントログに隠されたcase-id、activity、timetampの属性をプロセスモデルの発見の手がかりとして使用する。
しかし、ユーザはそれらを手動で指定する必要がある。
本稿では,このような手作業による調査を避けるために,二段階鍵属性同定手法を提案する。
難しいタスクの1つは、組合せ爆発による徹底的な計算を避ける方法である。
このため,第1段階では教師付き機械学習を用いて各キー属性の候補を絞り込み,第2段階では最適な組み合わせを識別する。
計算の複雑さは$\mathcal{o}(n^3)$ から $\mathcal{o}(k^3)$ に減らされ、ここで $n$ と $k$ は最初の段階で保持する列と候補の数であり、通常 $k$ は $n$ よりはるかに小さい。
提案手法を14個のオープンデータセットで評価し,多くのデータセットに対して約20秒間$k = 2$でもキー属性を識別可能であることを示した。
関連論文リスト
- Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - The Limits of Assumption-free Tests for Algorithm Performance [6.7171902258864655]
与えられたモデリングタスクにおいてアルゴリズムはどの程度うまく機能し、どのアルゴリズムが最善を尽くすか?
一方、特定のトレーニングデータセットに対して$A$を実行して生成された特定の適合モデルが$n$であるのか?
論文 参考訳(メタデータ) (2024-02-12T03:19:30Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Quantum Resources Required to Block-Encode a Matrix of Classical Data [56.508135743727934]
回路レベルの実装とリソース推定を行い、古典データの高密度な$Ntimes N$行列をブロックエンコードして$epsilon$を精度良くすることができる。
異なるアプローチ間のリソーストレードオフを調査し、量子ランダムアクセスメモリ(QRAM)の2つの異なるモデルの実装を検討する。
我々の結果は、単純なクエリの複雑さを超えて、大量の古典的データが量子アルゴリズムにアクセスできると仮定された場合のリソースコストの明確な図を提供する。
論文 参考訳(メタデータ) (2022-06-07T18:00:01Z) - Active clustering for labeling training data [0.8029049649310211]
本稿では,人間専門家がペアワイズクエリに応答する比較的安価なタスクを実行するための,データ収集のトレーニング環境を提案する。
我々は、アイテムをクラスタリングし、その複雑さを分析するのに必要なクエリの平均数を最小化するアルゴリズムを解析する。
論文 参考訳(メタデータ) (2021-10-27T15:35:58Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Robust Meta-learning for Mixed Linear Regression with Small Batches [34.94138630547603]
大量の小データタスクは、ビッグデータタスクの欠如を補うことができるか?
既存のアプローチでは、そのようなトレードオフは効率よく達成でき、それぞれ$Omega(k1/2)$の例を持つ中規模のタスクの助けを借りることができる。
両シナリオで同時に堅牢なスペクトルアプローチを導入する。
論文 参考訳(メタデータ) (2020-06-17T07:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。