論文の概要: Assisted Data Annotation for Business Process Information Extraction from Textual Documents
- arxiv url: http://arxiv.org/abs/2410.01356v1
- Date: Wed, 2 Oct 2024 09:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:39:21.778747
- Title: Assisted Data Annotation for Business Process Information Extraction from Textual Documents
- Title(参考訳): テキスト文書からのビジネスプロセス情報抽出のためのデータアノテーション支援
- Authors: Julian Neuberger, Han van der Aa, Lars Ackermann, Daniel Buschek, Jannic Herrmann, Stefan Jablonski,
- Abstract要約: 自然言語のテキストプロセス記述から機械学習に基づくプロセスモデルの生成は、時間集約的で高価なプロセス発見フェーズのソリューションを提供する。
本稿では、データセット作成を支援する2つの支援機能、テキスト中のプロセス情報を特定するレコメンデーションシステム、すでに特定されているプロセス情報の現在の状態をグラフィカルなビジネスプロセスモデルとして可視化する2つの支援機能を提案する。
31人の参加者によるコントロールされたユーザスタディによると、データセット作成を支援するリコメンデーションは、ワークロードのすべての側面を最大51.0%$に下げ、アノテーションの品質を最大38.9%$に大幅に改善する。
- 参考スコア(独自算出の注目度): 15.770020803430246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learning based generation of process models from natural language text process descriptions provides a solution for the time-intensive and expensive process discovery phase. Many organizations have to carry out this phase, before they can utilize business process management and its benefits. Yet, research towards this is severely restrained by an apparent lack of large and high-quality datasets. This lack of data can be attributed to, among other things, an absence of proper tool assistance for dataset creation, resulting in high workloads and inferior data quality. We explore two assistance features to support dataset creation, a recommendation system for identifying process information in the text and visualization of the current state of already identified process information as a graphical business process model. A controlled user study with 31 participants shows that assisting dataset creators with recommendations lowers all aspects of workload, up to $-51.0\%$, and significantly improves annotation quality, up to $+38.9\%$. We make all data and code available to encourage further research on additional novel assistance strategies.
- Abstract(参考訳): 自然言語のテキストプロセス記述から機械学習に基づくプロセスモデルの生成は、時間集約的で高価なプロセス発見フェーズのソリューションを提供する。
多くの組織は、ビジネスプロセス管理とその利益を利用する前に、このフェーズを実行する必要があります。
しかし、これに対する研究は、大規模で高品質なデータセットが明らかに欠如していることによって厳しく抑制されている。
このデータ不足は、データセット作成のための適切なツールアシストが欠如していることや、高いワークロードとデータ品質の低下に起因する可能性がある。
本稿では、データセット作成を支援する2つの支援機能、テキスト中のプロセス情報を特定するレコメンデーションシステム、すでに特定されているプロセス情報の現在の状態をグラフィカルなビジネスプロセスモデルとして可視化する2つの支援機能について検討する。
31人の参加者によるコントロールされたユーザスタディによると、データセット作成を支援するリコメンデーションは、ワークロードのすべての側面を最大51.0\%$に下げ、アノテーションの品質を最大38.9\%$に大幅に改善する。
新たな支援戦略のさらなる研究を奨励するために、すべてのデータとコードを利用可能にしています。
関連論文リスト
- A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Leveraging Data Augmentation for Process Information Extraction [0.0]
自然言語テキストデータに対するデータ拡張の適用について検討する。
データ拡張は、自然言語テキストからビジネスプロセスモデルを生成するタスクのための機械学習メソッドを実現する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2024-04-11T06:32:03Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Process-BERT: A Framework for Representation Learning on Educational
Process Data [68.8204255655161]
本稿では,教育プロセスデータの表現を学習するためのフレームワークを提案する。
我々のフレームワークは、BERT型の目的を用いて、シーケンシャルなプロセスデータから表現を学習する事前学習ステップで構成されています。
当社のフレームワークは,2019年国のレポートカードデータマイニングコンペティションデータセットに適用しています。
論文 参考訳(メタデータ) (2022-04-28T16:07:28Z) - SemTUI: a Framework for the Interactive Semantic Enrichment of Tabular
Data [0.0]
SemTUIは、セマンティクスを使うことで、リッチ化プロセスを柔軟、完全、効果的にするためのフレームワークである。
タスク駆動のユーザ評価によって、SemTUIは理解でき、使いやすく、テーブルの充実をほとんど努力も時間もかからずに達成できることが証明された。
論文 参考訳(メタデータ) (2022-03-17T17:14:21Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。