論文の概要: Towards a Benchmark for Large Language Models for Business Process Management Tasks
- arxiv url: http://arxiv.org/abs/2410.03255v1
- Date: Fri, 04 Oct 2024 09:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:12:02.309619
- Title: Towards a Benchmark for Large Language Models for Business Process Management Tasks
- Title(参考訳): ビジネスプロセス管理タスクのための大規模言語モデルのベンチマークに向けて
- Authors: Kiran Busch, Henrik Leopold,
- Abstract要約: 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
本稿では、ビジネスプロセス管理領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
- 参考スコア(独自算出の注目度): 1.878433493707693
- License:
- Abstract: An increasing number of organizations are deploying Large Language Models (LLMs) for a wide range of tasks. Despite their general utility, LLMs are prone to errors, ranging from inaccuracies to hallucinations. To objectively assess the capabilities of existing LLMs, performance benchmarks are conducted. However, these benchmarks often do not translate to more specific real-world tasks. This paper addresses the gap in benchmarking LLM performance in the Business Process Management (BPM) domain. Currently, no BPM-specific benchmarks exist, creating uncertainty about the suitability of different LLMs for BPM tasks. This paper systematically compares LLM performance on four BPM tasks focusing on small open-source models. The analysis aims to identify task-specific performance variations, compare the effectiveness of open-source versus commercial models, and assess the impact of model size on BPM task performance. This paper provides insights into the practical applications of LLMs in BPM, guiding organizations in selecting appropriate models for their specific needs.
- Abstract(参考訳): 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
既存のLCMの性能を客観的に評価するために,性能ベンチマークを実施している。
しかしながら、これらのベンチマークは、しばしばより具体的な現実世界のタスクに翻訳しない。
本稿では、ビジネスプロセス管理(BPM)領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
現在、BPM固有のベンチマークは存在せず、BPMタスクに対する異なるLLMの適合性に関する不確実性を生み出しています。
本稿では,4つのBPMタスクにおけるLLMのパフォーマンスを,小規模なオープンソースモデルに焦点をあてて体系的に比較する。
この分析の目的は、タスク固有のパフォーマンスのバリエーションを特定し、オープンソースと商用モデルの有効性を比較し、モデルサイズがBPMタスクのパフォーマンスに与える影響を評価することである。
本稿では、BPMにおけるLLMの実践的応用に関する洞察を提供し、組織が特定のニーズに対して適切なモデルを選択することを導く。
関連論文リスト
- PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks [45.129578769739]
大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。
ドメイン知識に着目したPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。
検討対象のLLMのほとんどは, 良好なレベルでプロセスマイニング作業を行うことができるが, エッジデバイス上で実行される小さなモデルはまだ不十分である。
論文 参考訳(メタデータ) (2024-07-18T07:57:31Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。