Fugu-MT 論文翻訳(概要): Towards a Benchmark for Causal Business Process Reasoning with LLMs

論文の概要: Towards a Benchmark for Causal Business Process Reasoning with LLMs

arxiv url: http://arxiv.org/abs/2406.05506v2
Date: Tue, 16 Jul 2024 15:48:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:39:37.057784
Title: Towards a Benchmark for Causal Business Process Reasoning with LLMs
Title（参考訳）: LLMによる因果ビジネスプロセス推論のベンチマークに向けて
Authors: Fabiana Fournier, Lior Limonad, Inna Skarbovsky,
Abstract要約: 大きな言語モデル(LLM)は、組織の効率向上やタスクの自動化にますます使われています。近年の取り組みは、推論、計画、意思決定といった活動にLLMを採用するよう拡張されている。本研究は, LLMの因果的・プロセス的視点を推論する能力を評価するため, ベンチマーク開発のための種子を植え付けるものである。
参考スコア（独自算出の注目度）: 2.273531916003657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used for boosting organizational efficiency and automating tasks. While not originally designed for complex cognitive processes, recent efforts have further extended to employ LLMs in activities such as reasoning, planning, and decision-making. In business processes, such abilities could be invaluable for leveraging on the massive corpora LLMs have been trained on for gaining deep understanding of such processes. In this work, we plant the seeds for the development of a benchmark to assess the ability of LLMs to reason about causal and process perspectives of business operations. We refer to this view as Causally-augmented Business Processes (BP^C). The core of the benchmark comprises a set of BP^C related situations, a set of questions about these situations, and a set of deductive rules employed to systematically resolve the ground truth answers to these questions. Also with the power of LLMs, the seed is then instantiated into a larger-scale set of domain-specific situations and questions. Reasoning on BP^C is of crucial importance for process interventions and process improvement. Our benchmark, accessible at https://huggingface.co/datasets/ibm/BPC, can be used in one of two possible modalities: testing the performance of any target LLM and training an LLM to advance its capability to reason about BP^C.
Abstract（参考訳）: 大きな言語モデル(LLM)は、組織の効率向上やタスクの自動化にますます使われています。もともとは複雑な認知プロセスのために設計されたものではないが、近年の取り組みは、推論、計画、意思決定といった活動にLLMを採用するように拡張されている。ビジネスプロセスにおいて、そのような能力は、そのようなプロセスの深い理解を得るために訓練された巨大なコーパスLLMを活用する上で、貴重なものになり得る。本研究は, LLMの因果的・プロセス的視点を推論する能力を評価するため, ベンチマーク開発のための種子を植え付けるものである。この見解を、BP^C(Causally-augmented Business Processes)と呼ぶ。ベンチマークのコアは、BP^C関連の一連の状況と、これらの状況に関する一連の質問と、これらの質問に対する基礎的な真実の答えを体系的に解決するために使用される導出規則から構成される。また、LLMの力により、種子はより大規模なドメイン固有の状況や問題にインスタンス化される。 BP^Cの推論は、プロセスの介入とプロセス改善にとって重要である。我々のベンチマークはhttps://huggingface.co/datasets/ibm/BPCでアクセス可能であり、任意のLLMの性能をテストし、BP^Cを推論するためにLLMを訓練する、2つの可能なモダリティの1つに利用できる。

関連論文リスト

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
On the Potential of Large Language Models to Solve Semantics-Aware Process Mining Tasks [3.9273545629281252]
大規模言語モデル(LLM)は、プロセスマイニングタスクに対処するための貴重なツールであることが示されている。本稿では,意味論的プロセスマイニングタスクにおけるLLMの機能について,体系的に検討する。セマンティック理解を必要とする5つのプロセスマイニングタスクを定義し、評価のための広範なベンチマークデータセットを提供する。
論文参考訳（メタデータ） (2025-04-29T17:52:28Z)
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文参考訳（メタデータ） (2025-02-08T19:49:32Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks [45.129578769739]
大規模言語モデル(LLM)は、プロセスマイニング(PM)分析を半自動化する可能性がある。ドメイン知識に着目したPMの総合ベンチマークであるPM-LLM-Benchmarkを提案する。検討対象のLLMのほとんどは, 良好なレベルでプロセスマイニング作業を行うことができるが, エッジデバイス上で実行される小さなモデルはまだ不十分である。
論文参考訳（メタデータ） (2024-07-18T07:57:31Z)
Evaluating the Ability of LLMs to Solve Semantics-Aware Process Mining Tasks [3.9273545629281252]
大規模言語モデル(LLM)は、プロセスの振る舞いを理解することの恩恵を受けるプロセスマイニングタスクに取り組むために使用できる。本稿では,LLMがプロセスマイニングタスクに対処する能力について検討する。
論文参考訳（メタデータ） (2024-07-02T14:44:49Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文参考訳（メタデータ） (2024-06-03T02:20:03Z)
When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。 ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文参考訳（メタデータ） (2023-11-15T14:26:30Z)
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。 LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文参考訳（メタデータ） (2023-04-28T19:00:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。