論文の概要: PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks
- arxiv url: http://arxiv.org/abs/2407.13244v1
- Date: Thu, 18 Jul 2024 07:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:22:32.206565
- Title: PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks
- Title(参考訳): PM-LLM-Benchmark:プロセスマイニングタスクにおける大規模言語モデルの評価
- Authors: Alessandro Berti, Humam Kourani, Wil M. P. van der Aalst,
- Abstract要約: 大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。
ドメイン知識に着目したPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。
検討対象のLLMのほとんどは, 良好なレベルでプロセスマイニング作業を行うことができるが, エッジデバイス上で実行される小さなモデルはまだ不十分である。
- 参考スコア(独自算出の注目度): 45.129578769739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have the potential to semi-automate some process mining (PM) analyses. While commercial models are already adequate for many analytics tasks, the competitive level of open-source LLMs in PM tasks is unknown. In this paper, we propose PM-LLM-Benchmark, the first comprehensive benchmark for PM focusing on domain knowledge (process-mining-specific and process-specific) and on different implementation strategies. We focus also on the challenges in creating such a benchmark, related to the public availability of the data and on evaluation biases by the LLMs. Overall, we observe that most of the considered LLMs can perform some process mining tasks at a satisfactory level, but tiny models that would run on edge devices are still inadequate. We also conclude that while the proposed benchmark is useful for identifying LLMs that are adequate for process mining tasks, further research is needed to overcome the evaluation biases and perform a more thorough ranking of the competitive LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。
商用モデルはすでに多くの分析タスクに適しているが、PMタスクにおけるオープンソースのLLMの競合レベルは不明である。
本稿では,ドメイン知識(プロセスマイニング固有およびプロセス固有)と異なる実装戦略に焦点を当てたPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。
また,データ公開に関するベンチマーク作成の課題や,LCMによる評価バイアスにも着目する。
全体としては、LLMのほとんどの場合、良好なレベルでプロセスマイニングタスクを実行できるが、エッジデバイス上で実行される小さなモデルはまだ不十分である。
また,提案ベンチマークはプロセスマイニング作業に適するLCMの同定に有用であるが,評価バイアスを克服し,競合LCMのより詳細な評価を行うためには,さらなる研究が必要であると結論付けた。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Towards a Benchmark for Large Language Models for Business Process Management Tasks [1.878433493707693]
幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
本稿では、ビジネスプロセス管理領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
論文 参考訳(メタデータ) (2024-10-04T09:18:54Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Evaluating the Ability of LLMs to Solve Semantics-Aware Process Mining Tasks [3.9273545629281252]
大規模言語モデル(LLM)は、プロセスの振る舞いを理解することの恩恵を受けるプロセスマイニングタスクに取り組むために使用できる。
本稿では,LLMがプロセスマイニングタスクに対処する能力について検討する。
論文 参考訳(メタデータ) (2024-07-02T14:44:49Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。