論文の概要: CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction
- arxiv url: http://arxiv.org/abs/2204.03871v1
- Date: Fri, 8 Apr 2022 06:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 18:37:46.208742
- Title: CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction
- Title(参考訳): CrudeOilNews:イベント抽出のための注釈付き原油ニュースコーポレーション
- Authors: Meisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto
- Abstract要約: CrudeOilNewsはイングリッシュ・クルード・オイル・ニュースのコーパスである。
商品ニュースとしては初めてであり、経済・財政的なテキストマイニングのための資源建設に貢献する。
- 参考スコア(独自算出の注目度): 0.665264113799989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present CrudeOilNews, a corpus of English Crude Oil news
for event extraction. It is the first of its kind for Commodity News and serve
to contribute towards resource building for economic and financial text mining.
This paper describes the data collection process, the annotation methodology
and the event typology used in producing the corpus. Firstly, a seed set of 175
news articles were manually annotated, of which a subset of 25 news were used
as the adjudicated reference test set for inter-annotator and system
evaluation. Agreement was generally substantial and annotator performance was
adequate, indicating that the annotation scheme produces consistent event
annotations of high quality. Subsequently the dataset is expanded through (1)
data augmentation and (2) Human-in-the-loop active learning. The resulting
corpus has 425 news articles with approximately 11k events annotated. As part
of active learning process, the corpus was used to train basic event extraction
models for machine labeling, the resulting models also serve as a validation or
as a pilot study demonstrating the use of the corpus in machine learning
purposes. The annotated corpus is made available for academic research purpose
at https://github.com/meisin/CrudeOilNews-Corpus.
- Abstract(参考訳): 本稿では,イベント抽出のための英語原油ニュースのコーパスである crudeoilnews を提案する。
商品ニュースとしては初めてであり、経済・金融のテキストマイニングのための資源構築に寄与している。
本稿では,コーパス作成に使用されるデータ収集プロセス,アノテーション方法論,イベントタイポロジーについて述べる。
まず175件のニュース記事のシードセットを手動でアノテートし,25件のニュースのサブセットをアノテータ間およびシステム評価のための適応参照テストセットとして使用した。
合意は概して実質的であり、アノテーションのパフォーマンスは十分であり、アノテーションスキームが高品質な一貫性のあるイベントアノテーションを生成することを示している。
その後、(1)データ拡張と(2)ヒューマン・イン・ザ・ループアクティブ・ラーニングによってデータセットを拡大する。
得られたコーパスには425のニュース記事があり、約11kのイベントが注釈付けされている。
アクティブな学習プロセスの一環として、コーパスは、マシンラベリングのための基本的なイベント抽出モデルをトレーニングするために使用され、結果として得られたモデルは、検証や、機械学習目的におけるコーパスの使用を実証するパイロットスタディとしても機能する。
注釈付きコーパスは、https://github.com/meisin/CrudeOilNews-Corpusで学術研究用に提供されている。
関連論文リスト
- Fine-Grained Named Entities for Corona News [0.0]
本研究では,コロナニュース記事からトレーニングデータを生成するためのデータアノテーションパイプラインを提案する。
名前付きエンティティ認識モデルは、この注釈付きコーパスに基づいて訓練され、その後、ドメインの専門家によって手動で注釈付けされたテスト文で評価される。
論文 参考訳(メタデータ) (2024-04-20T18:22:49Z) - RAAMove: A Corpus for Analyzing Moves in Research Article Abstracts [9.457460355411582]
RAAMoveは、研究論文(RA)における移動構造のアノテーション専用の包括的なコーパスである。
コーパスは、まず、エキスパートアノテータが手動で高品質なデータをアノテートし、次に、人間のアノテートデータに基づいて、BERTベースのモデルが自動アノテーションに使用される。
その結果、33,988の注釈付きインスタンスからなる大規模で高品質なコーパスが得られた。
論文 参考訳(メタデータ) (2024-03-23T15:43:30Z) - CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Effective Use of Graph Convolution Network and Contextual Sub-Tree
forCommodity News Event Extraction [1.398696312226463]
本稿では,コモディティニュースのイベントトラクションを改善するために,GCN(Graph Convolutional Networks)とPrunedDependency Parse Tree(コンテキストサブツリー)を効果的に利用することを提案する。
実験の結果,提案手法の効率はF1スコアが0.90までの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-27T03:57:17Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - Cross-context News Corpus for Protest Events related Knowledge Base
Construction [0.15393457051344295]
我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
論文 参考訳(メタデータ) (2020-08-01T22:20:48Z) - Leveraging Declarative Knowledge in Text and First-Order Logic for
Fine-Grained Propaganda Detection [139.3415751957195]
本稿では,ニュース記事中のプロパガンダ的テキスト断片の検出について検討する。
本稿では,詳細なプロパガンダ手法の宣言的知識を注入する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T13:46:15Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。