論文の概要: Towards a Benchmark for Large Language Models for Business Process Management Tasks
- arxiv url: http://arxiv.org/abs/2410.03255v2
- Date: Sun, 13 Oct 2024 11:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:28:42.562372
- Title: Towards a Benchmark for Large Language Models for Business Process Management Tasks
- Title(参考訳): ビジネスプロセス管理タスクのための大規模言語モデルのベンチマークに向けて
- Authors: Kiran Busch, Henrik Leopold,
- Abstract要約: 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
本稿では、ビジネスプロセス管理領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
- 参考スコア(独自算出の注目度): 1.878433493707693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing number of organizations are deploying Large Language Models (LLMs) for a wide range of tasks. Despite their general utility, LLMs are prone to errors, ranging from inaccuracies to hallucinations. To objectively assess the capabilities of existing LLMs, performance benchmarks are conducted. However, these benchmarks often do not translate to more specific real-world tasks. This paper addresses the gap in benchmarking LLM performance in the Business Process Management (BPM) domain. Currently, no BPM-specific benchmarks exist, creating uncertainty about the suitability of different LLMs for BPM tasks. This paper systematically compares LLM performance on four BPM tasks focusing on small open-source models. The analysis aims to identify task-specific performance variations, compare the effectiveness of open-source versus commercial models, and assess the impact of model size on BPM task performance. This paper provides insights into the practical applications of LLMs in BPM, guiding organizations in selecting appropriate models for their specific needs.
- Abstract(参考訳): 幅広いタスクに対してLLM(Large Language Models)をデプロイする組織が増えている。
汎用性にもかかわらず、LLMは不正確さから幻覚まで、エラーを起こしやすい。
既存のLCMの性能を客観的に評価するために,性能ベンチマークを実施している。
しかしながら、これらのベンチマークは、しばしばより具体的な現実世界のタスクに翻訳しない。
本稿では、ビジネスプロセス管理(BPM)領域におけるLCMパフォーマンスのベンチマークのギャップについて論じる。
現在、BPM固有のベンチマークは存在せず、BPMタスクに対する異なるLLMの適合性に関する不確実性を生み出しています。
本稿では,4つのBPMタスクにおけるLLMのパフォーマンスを,小規模なオープンソースモデルに焦点をあてて体系的に比較する。
この分析の目的は、タスク固有のパフォーマンスのバリエーションを特定し、オープンソースと商用モデルの有効性を比較し、モデルサイズがBPMタスクのパフォーマンスに与える影響を評価することである。
本稿では、BPMにおけるLLMの実践的応用に関する洞察を提供し、組織が特定のニーズに対して適切なモデルを選択することを導く。
関連論文リスト
- Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks [45.129578769739]
大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。
ドメイン知識に着目したPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。
検討対象のLLMのほとんどは, 良好なレベルでプロセスマイニング作業を行うことができるが, エッジデバイス上で実行される小さなモデルはまだ不十分である。
論文 参考訳(メタデータ) (2024-07-18T07:57:31Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。