論文の概要: Leveraging Data Augmentation for Process Information Extraction
- arxiv url: http://arxiv.org/abs/2404.07501v1
- Date: Thu, 11 Apr 2024 06:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:58:47.746521
- Title: Leveraging Data Augmentation for Process Information Extraction
- Title(参考訳): プロセス情報抽出のためのデータ拡張の活用
- Authors: Julian Neuberger, Leonie Doll, Benedict Engelmann, Lars Ackermann, Stefan Jablonski,
- Abstract要約: 自然言語テキストデータに対するデータ拡張の適用について検討する。
データ拡張は、自然言語テキストからビジネスプロセスモデルを生成するタスクのための機械学習メソッドを実現する上で重要なコンポーネントである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Business Process Modeling projects often require formal process models as a central component. High costs associated with the creation of such formal process models motivated many different fields of research aimed at automated generation of process models from readily available data. These include process mining on event logs, and generating business process models from natural language texts. Research in the latter field is regularly faced with the problem of limited data availability, hindering both evaluation and development of new techniques, especially learning-based ones. To overcome this data scarcity issue, in this paper we investigate the application of data augmentation for natural language text data. Data augmentation methods are well established in machine learning for creating new, synthetic data without human assistance. We find that many of these methods are applicable to the task of business process information extraction, improving the accuracy of extraction. Our study shows, that data augmentation is an important component in enabling machine learning methods for the task of business process model generation from natural language text, where currently mostly rule-based systems are still state of the art. Simple data augmentation techniques improved the $F_1$ score of mention extraction by 2.9 percentage points, and the $F_1$ of relation extraction by $4.5$. To better understand how data augmentation alters human annotated texts, we analyze the resulting text, visualizing and discussing the properties of augmented textual data. We make all code and experiments results publicly available.
- Abstract(参考訳): ビジネスプロセスモデリング プロジェクトは、しばしば中心的なコンポーネントとして形式的なプロセスモデルを必要とします。
このような形式的なプロセスモデルの作成に伴う高コストは、容易に利用可能なデータからプロセスモデルの自動生成を目的とした多くの異なる研究分野を動機づけた。
これには、イベントログのプロセスマイニング、自然言語テキストからビジネスプロセスモデルを生成することが含まれる。
後者の分野の研究は、データ可用性の制限という問題に直面しており、特に学習に基づく新しい技術の評価と開発を妨げている。
本稿では,このデータ不足を克服するために,自然言語テキストデータへのデータ拡張の適用について検討する。
データ拡張方法は、人間の助けなしに新しい合成データを作成する機械学習において十分に確立されている。
これらの手法の多くはビジネスプロセス情報抽出のタスクに適用でき、抽出の精度が向上することがわかった。
我々の研究は、自然言語テキストからビジネスプロセスモデルを生成するタスクにおいて、データ拡張が機械学習手法を実現する上で重要な要素であることを示している。
単純なデータ拡張手法により、参照抽出の$F_1$を2.9ポイント、関係抽出の$F_1$を$4.5$に改善した。
データ拡張が人間の注釈付きテキストをどのように変化させるかをよりよく理解するために、得られたテキストを分析し、拡張されたテキストデータの性質を視覚化し、議論する。
すべてのコードと実験結果を公開しています。
関連論文リスト
- Assisted Data Annotation for Business Process Information Extraction from Textual Documents [15.770020803430246]
自然言語のテキストプロセス記述から機械学習に基づくプロセスモデルの生成は、時間集約的で高価なプロセス発見フェーズのソリューションを提供する。
本稿では、データセット作成を支援する2つの支援機能、テキスト中のプロセス情報を特定するレコメンデーションシステム、すでに特定されているプロセス情報の現在の状態をグラフィカルなビジネスプロセスモデルとして可視化する2つの支援機能を提案する。
31人の参加者によるコントロールされたユーザスタディによると、データセット作成を支援するリコメンデーションは、ワークロードのすべての側面を最大51.0%$に下げ、アノテーションの品質を最大38.9%$に大幅に改善する。
論文 参考訳(メタデータ) (2024-10-02T09:14:39Z) - A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text using Large Language Models [0.8899670429041453]
生成型大規模言語モデル(LLM)は,広範囲なデータを必要とすることなく,非常に高品質なNLPタスクを解くことができることを示す。
新たなプロンプト戦略に基づいて,LLMが最先端の機械学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-26T06:39:35Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Beyond Rule-based Named Entity Recognition and Relation Extraction for
Process Model Generation from Natural Language Text [0.0]
既存のパイプラインを拡張して、完全にデータ駆動にします。
改善されたパイプラインの競争力を示す。これは、機能エンジニアリングとルール定義に関連するかなりのオーバーヘッドを取り除くだけでなく、改善されたパイプラインの競争力も排除します。
本稿では,言語参照に関する情報を取り入れたPETデータセットの拡張と,それを解決する方法を提案する。
論文 参考訳(メタデータ) (2023-05-06T07:06:47Z) - Data Augmentation for Neural NLP [0.0]
データ拡張は、データの不足に対処するための低コストなアプローチである。
本稿では,自然言語処理における最先端データ拡張手法の概要について述べる。
論文 参考訳(メタデータ) (2023-02-22T14:47:15Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。