論文の概要: Data Augmentation Techniques for Process Extraction from Scientific Publications
- arxiv url: http://arxiv.org/abs/2405.14594v1
- Date: Thu, 23 May 2024 14:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:45:33.903262
- Title: Data Augmentation Techniques for Process Extraction from Scientific Publications
- Title(参考訳): 学術論文からのプロセス抽出のためのデータ拡張技術
- Authors: Yuni Susanti,
- Abstract要約: 我々はプロセス抽出タスクをシーケンスラベリングタスクとしてキャストし、文中のすべてのエンティティを識別し、プロセス固有の役割に従ってラベル付けする。
提案手法は,(1)原文からのプロセス固有の情報,(2)役割ラベルの類似性,(3)文類似性を利用して意味のある拡張文を作成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present data augmentation techniques for process extraction tasks in scientific publications. We cast the process extraction task as a sequence labeling task where we identify all the entities in a sentence and label them according to their process-specific roles. The proposed method attempts to create meaningful augmented sentences by utilizing (1) process-specific information from the original sentence, (2) role label similarity, and (3) sentence similarity. We demonstrate that the proposed methods substantially improve the performance of the process extraction model trained on chemistry domain datasets, up to 12.3 points improvement in performance accuracy (F-score). The proposed methods could potentially reduce overfitting as well, especially when training on small datasets or in a low-resource setting such as in chemistry and other scientific domains.
- Abstract(参考訳): 本稿では,学術出版物におけるプロセス抽出タスクのためのデータ拡張手法を提案する。
我々はプロセス抽出タスクをシーケンスラベリングタスクとしてキャストし、文中のすべてのエンティティを識別し、プロセス固有の役割に従ってラベル付けする。
提案手法は,(1)原文からのプロセス固有の情報,(2)役割ラベルの類似性,(3)文類似性を利用して意味のある拡張文を作成する。
提案手法は,化学領域のデータセットに基づいて学習したプロセス抽出モデルの性能を大幅に向上し,最大12.3ポイントの性能向上(Fスコア)を示す。
提案手法は、特に小さなデータセットでのトレーニングや、化学やその他の科学領域のような低リソース環境でのオーバーフィッティングを軽減できる可能性がある。
関連論文リスト
- Benchmarking the Generation of Fact Checking Explanations [19.363672064425504]
我々は、正当化の生成(クレームが真か偽かのどちらかに分類される理由をテキストで説明する)に焦点を当て、新しいデータセットと高度なベースラインでベンチマークする。
その結果,生産要約の正当性はクレーム情報から得られることがわかった。
クロスデータセット実験は性能劣化に悩まされるが、2つのデータセットの組み合わせでトレーニングされたユニークなモデルは、スタイル情報を効率的に保持することができる。
論文 参考訳(メタデータ) (2023-08-29T10:40:46Z) - Distill Gold from Massive Ores: Efficient Dataset Distillation via
Critical Samples Selection [101.78275454476311]
情報伝達の文脈内でデータセット蒸留タスクをモデル化する。
我々は、データユーティリティー推定器のファミリーと、最も価値のあるサンプルを利用する最適なデータ選択方法を導入し、検証する。
提案手法は, より大規模で異種なデータセットであっても, 蒸留アルゴリズムを一貫して強化する。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Data Augmentation for Intent Classification [1.5635370717421018]
そこで本研究では,小さなシードセットを与えられた擬似ラベル付きデータを体系的に生成する過程について検討した。
定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。
論文 参考訳(メタデータ) (2022-06-12T16:56:31Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - Self Regulated Learning Mechanism for Data Efficient Knowledge
Distillation [8.09591217280048]
教師モデルから学生モデルへ知識を移行するための新しいデータ効率の高いアプローチを提示する。
教師モデルは、訓練に適切なサンプルを選択し、その過程におけるその重要性を特定するために自己規制を用いる。
蒸留中は、学生を監督するソフトターゲットと共に重要な情報を利用することができる。
論文 参考訳(メタデータ) (2021-02-14T10:43:13Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Process Discovery for Structured Program Synthesis [70.29027202357385]
プロセスマイニングにおける中核的なタスクは、イベントログデータから正確なプロセスモデルを学ぶことを目的としたプロセス発見である。
本稿では,ターゲットプロセスモデルとして(ブロック-)構造化プログラムを直接使用することを提案する。
我々は,このような構造化プログラムプロセスモデルの発見に対して,新たなボトムアップ・アグリメティブ・アプローチを開発する。
論文 参考訳(メタデータ) (2020-08-13T10:33:10Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。