論文の概要: Utilizing coarse-grained data in low-data settings for event extraction
- arxiv url: http://arxiv.org/abs/2205.05468v1
- Date: Wed, 11 May 2022 13:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 02:06:03.777844
- Title: Utilizing coarse-grained data in low-data settings for event extraction
- Title(参考訳): イベント抽出のための低データ設定における粗粒データの利用
- Authors: Osman Mutlu
- Abstract要約: 文書を注釈付けするのではなく,粗粒度データ(文書や文ラベル)の統合の可能性を検討する。
その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating text data for event information extraction systems is hard,
expensive, and error-prone. We investigate the feasibility of integrating
coarse-grained data (document or sentence labels), which is far more feasible
to obtain, instead of annotating more documents. We utilize a multi-task model
with two auxiliary tasks, document and sentence binary classification, in
addition to the main task of token classification. We perform a series of
experiments with varying data regimes for the aforementioned integration.
Results show that while introducing extra coarse-grained data offers greater
improvement and robustness, a gain is still possible with only the addition of
negative documents that have no information on any event.
- Abstract(参考訳): イベント情報抽出システムのテキストデータの注釈付けは難しく、高価で、エラーを起こしやすい。
より多くの文書に注釈をつけるのではなく、より入手しやすい粗粒度データ(文書や文ラベル)の統合の可能性を検討する。
トークン分類のメインタスクに加えて,文書と文のバイナリ分類という2つの補助タスクを備えたマルチタスクモデルを利用する。
上記の統合のために,様々なデータレジームを用いた一連の実験を行う。
その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Jointly Learning Span Extraction and Sequence Labeling for Information
Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。
これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。
このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2022-05-26T15:37:24Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Rapid Adaptation of BERT for Information Extraction on Domain-Specific
Business Documents [37.70717389244695]
ビジネス文書から重要なコンテンツ要素を自動的に抽出する技術を開発した。
また,100文書未満のアノテートデータに対して,妥当な精度を実現するのに十分な量のアノテートデータが得られた。
私たちはモデルをエンドツーエンドのクラウドプラットフォームに統合し、簡単に使えるアノテーションインターフェースと推論インターフェースの両方を提供します。
論文 参考訳(メタデータ) (2020-02-05T16:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。