論文の概要: Utilizing coarse-grained data in low-data settings for event extraction
- arxiv url: http://arxiv.org/abs/2205.05468v1
- Date: Wed, 11 May 2022 13:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 02:06:03.777844
- Title: Utilizing coarse-grained data in low-data settings for event extraction
- Title(参考訳): イベント抽出のための低データ設定における粗粒データの利用
- Authors: Osman Mutlu
- Abstract要約: 文書を注釈付けするのではなく,粗粒度データ(文書や文ラベル)の統合の可能性を検討する。
その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating text data for event information extraction systems is hard,
expensive, and error-prone. We investigate the feasibility of integrating
coarse-grained data (document or sentence labels), which is far more feasible
to obtain, instead of annotating more documents. We utilize a multi-task model
with two auxiliary tasks, document and sentence binary classification, in
addition to the main task of token classification. We perform a series of
experiments with varying data regimes for the aforementioned integration.
Results show that while introducing extra coarse-grained data offers greater
improvement and robustness, a gain is still possible with only the addition of
negative documents that have no information on any event.
- Abstract(参考訳): イベント情報抽出システムのテキストデータの注釈付けは難しく、高価で、エラーを起こしやすい。
より多くの文書に注釈をつけるのではなく、より入手しやすい粗粒度データ(文書や文ラベル)の統合の可能性を検討する。
トークン分類のメインタスクに加えて,文書と文のバイナリ分類という2つの補助タスクを備えたマルチタスクモデルを利用する。
上記の統合のために,様々なデータレジームを用いた一連の実験を行う。
その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。
関連論文リスト
- Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Extending Multi-Text Sentence Fusion Resources via Pyramid Annotations [12.394777121890925]
本稿では、過去のデータセット作成の取り組みを再考し、大幅に拡張する。
拡張版では、複数のドキュメントタスクにもっと代表的なテキストを使用し、より大きく、より多様なトレーニングセットを提供しています。
論文 参考訳(メタデータ) (2021-10-09T09:15:05Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Data, Assemble: Leveraging Multiple Datasets with Heterogeneous and
Partial Labels [75.45394991863668]
は、データセットのアセンブリから部分的にラベル付けされたデータの完全な可能性を解き放つことを目的としている。
また,「ネガティブな例」からの学習が関心のクラス分類とセグメンテーションを促進することを示す。
我々のモデルはマイノリティ階級の病気を識別する上で特に強力であり、平均して3ポイント以上の改善をもたらす。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Evidence-based Verification for Real World Information Needs [54.86596226139524]
クレーム検証は、証拠に対する文書の妥当性を予測するタスクである。
本稿では,検索エンジンクエリからインスタンスを抽出した新しいクレーム検証データセットを提案する。
各請求について、我々はセクションと文レベルの粒度の両方で完全なウィキペディアの記事から証拠を注釈します。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。