Fugu-MT 論文翻訳(概要): ProcessTBench: An LLM Plan Generation Dataset for Process Mining

論文の概要: ProcessTBench: An LLM Plan Generation Dataset for Process Mining

arxiv url: http://arxiv.org/abs/2409.09191v2
Date: Thu, 19 Sep 2024 16:46:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-20 13:27:09.261069
Title: ProcessTBench: An LLM Plan Generation Dataset for Process Mining
Title（参考訳）: ProcessTBench: プロセスマイニングのためのLCM計画生成データセット
Authors: Andrei Cosmin Redis, Mohammadreza Fani Sani, Bahram Zarrin, Andrea Burattin,
Abstract要約: 大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。既存のデータセットは、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。本稿では,TaskBench データセットの拡張である ProcessTBench 合成データセットを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown significant promise in plan generation. Yet, existing datasets often lack the complexity needed for advanced tool use scenarios - such as handling paraphrased query statements, supporting multiple languages, and managing actions that can be done in parallel. These scenarios are crucial for evaluating the evolving capabilities of LLMs in real-world applications. Moreover, current datasets don't enable the study of LLMs from a process perspective, particularly in scenarios where understanding typical behaviors and challenges in executing the same process under different conditions or formulations is crucial. To address these gaps, we present the ProcessTBench synthetic dataset, an extension of the TaskBench dataset specifically designed to evaluate LLMs within a process mining framework.
Abstract（参考訳）: 大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。しかし、既存のデータセットは、パラフレーズクエリステートメントの処理、複数の言語のサポート、並列に実行できるアクションの管理など、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。これらのシナリオは、現実世界のアプリケーションにおけるLLMの進化能力を評価するために不可欠である。さらに、現在のデータセットは、特に異なる条件や定式化の下で同じプロセスを実行する際の典型的な振る舞いや課題を理解することが不可欠であるシナリオにおいて、プロセスの観点からLLMの研究を不可能にしています。これらのギャップに対処するために、プロセスマイニングフレームワーク内でLSMを評価するために特別に設計されたTaskBenchデータセットの拡張であるProcessTBench合成データセットを提案する。

関連論文リスト

EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
On the Potential of Large Language Models to Solve Semantics-Aware Process Mining Tasks [3.9273545629281252]
大規模言語モデル(LLM)は、プロセスマイニングタスクに対処するための貴重なツールであることが示されている。本稿では,意味論的プロセスマイニングタスクにおけるLLMの機能について,体系的に検討する。セマンティック理解を必要とする5つのプロセスマイニングタスクを定義し、評価のための広範なベンチマークデータセットを提供する。
論文参考訳（メタデータ） (2025-04-29T17:52:28Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。これは複雑なタスクやデータに問題があります。本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文参考訳（メタデータ） (2024-10-16T03:22:35Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文参考訳（メタデータ） (2024-10-02T19:56:38Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。 ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。以上の結果から,ADaPTは強いベースラインを確立した。
論文参考訳（メタデータ） (2023-11-08T17:59:15Z)
Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-30T23:28:43Z)
Large Language Models can accomplish Business Process Management Tasks [0.0]
大規模言語モデル(LLM)がテキスト関連ビジネスプロセス管理タスクをどのように達成できるかを示す。 LLMは、テキスト記述からプロセスモデルを達成し、テキスト記述から宣言的プロセスモデルをマイニングし、ロボットプロセス自動化のためのテキスト記述からプロセスタスクの適合性を評価する。
論文参考訳（メタデータ） (2023-07-19T11:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。