論文の概要: The Causal News Corpus: Annotating Causal Relations in Event Sentences
from News
- arxiv url: http://arxiv.org/abs/2204.11714v1
- Date: Mon, 25 Apr 2022 15:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:48:00.117486
- Title: The Causal News Corpus: Annotating Causal Relations in Event Sentences
from News
- Title(参考訳): 因果ニュースコーパス:ニュースからの事象文における因果関係の注釈
- Authors: Fiona Anting Tan, Ali H\"urriyeto\u{g}lu, Tommaso Caselli, Nelleke
Oostdijk, Tadashi Nomoto, Hansi Hettiarachchi, Iqra Ameer, Onur Uca, Farhana
Ferdousi Liza, Tiancheng Hu
- Abstract要約: 我々は、抗議イベントニュースから3559件のイベント文に、因果関係を含むか否かのラベルを添付した。
最先端の事前訓練言語モデル上に構築されたニューラルネットワークは、テストセットで81.20%のF1スコア、5倍のクロスバリデーションで83.46%を達成している。
- 参考スコア(独自算出の注目度): 2.707724918046079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the importance of understanding causality, corpora addressing causal
relations are limited. There is a discrepancy between existing annotation
guidelines of event causality and conventional causality corpora that focus
more on linguistics. Many guidelines restrict themselves to include only
explicit relations or clause-based arguments. Therefore, we propose an
annotation schema for event causality that addresses these concerns. We
annotated 3,559 event sentences from protest event news with labels on whether
it contains causal relations or not. Our corpus is known as the Causal News
Corpus (CNC). A neural network built upon a state-of-the-art pre-trained
language model performed well with 81.20% F1 score on test set, and 83.46% in
5-folds cross-validation. CNC is transferable across two external corpora:
CausalTimeBank (CTB) and Penn Discourse Treebank (PDTB). Leveraging each of
these external datasets for training, we achieved up to approximately 64% F1 on
the CNC test set without additional fine-tuning. CNC also served as an
effective training and pre-training dataset for the two external corpora.
Lastly, we demonstrate the difficulty of our task to the layman in a
crowd-sourced annotation exercise. Our annotated corpus is publicly available,
providing a valuable resource for causal text mining researchers.
- Abstract(参考訳): 因果関係を理解することの重要性にもかかわらず、因果関係に対処するコーパスは限られている。
事象因果性に関する既存のガイドラインと、言語学に重点を置く従来の因果性コーパスとの間には相違点がある。
多くのガイドラインは、明示的な関係や節ベースの引数だけを含めることを制限している。
そこで本稿では,これらの問題に対処するイベント因果関係のアノテーションスキーマを提案する。
我々は、抗議イベントニュースから3559件のイベント文に、因果関係を含むか否かのラベルを添付した。
私たちのコーパスはCausal News Corpus(CNC)として知られている。
最先端の事前訓練言語モデル上に構築されたニューラルネットワークは、テストセットで81.20%のF1スコア、5倍のクロスバリデーションで83.46%を達成している。
CNCはCausalTimeBank (CTB) と Penn Discourse Treebank (PDTB) の2つの外部コーパスで転送可能である。
これらの外部データセットをトレーニングに利用し、追加の微調整なしでCNCテストセットで最大64%のF1を達成しました。
CNCは2つの外部コーパスの効果的なトレーニングおよび事前トレーニングデータセットとしても機能した。
最後に,クラウドソースによるアノテーション演習において,在職者に対する課題の難しさを実証する。
私たちの注釈付きコーパスは公開されており、因果的テキストマイニング研究者に貴重なリソースを提供する。
関連論文リスト
- Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。
我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。
COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-12T08:13:52Z) - Event Causality Is Key to Computational Story Understanding [5.167262076146664]
本稿では,イベント因果同定のための最初の手法を提案する。
下流のストーリー品質評価タスクでは、特定因果関係は3.6~16.6%の相対的改善をもたらす。
この結果から, 事象因果関係を未然に把握できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-16T07:59:12Z) - CRAB: Assessing the Strength of Causal Relationships Between Real-world
Events [20.74723427835013]
実世界の物語における出来事の因果的理解を評価するための新しい因果推論評価ベンチマークであるCRABを提案する。
いくつかの大規模言語モデルの性能を計測し、ほとんどのシステムがそのタスクにおいて性能が劣っていることを示す。
古典的因果関係の原理により、CRABにおける事象群の因果構造を解析し、複雑な因果構造からイベントが導出される場合、モデルが因果推論に悪影響を及ぼすことを見出した。
論文 参考訳(メタデータ) (2023-11-07T19:00:44Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction [0.665264113799989]
CrudeOilNewsはイングリッシュ・クルード・オイル・ニュースのコーパスである。
商品ニュースとしては初めてであり、経済・財政的なテキストマイニングのための資源建設に貢献する。
論文 参考訳(メタデータ) (2022-04-08T06:51:35Z) - HeadlineCause: A Dataset of News Headlines for Detecting Casualties [0.20305676256390934]
HeadlineCauseは、ニュースの見出しのペア間の暗黙的な因果関係を検出するデータセットである。
データセットには、英国のニュースから5000以上の見出しペアと、クラウドソーシングを通じてラベル付けされたロシアのニュースから9000以上の見出しペアが含まれている。
論文 参考訳(メタデータ) (2021-08-28T11:12:49Z) - Fine-Grained Causality Extraction From Natural Language Requirements
Using Recursive Neural Tensor Networks [4.3809778768125875]
本稿では,再帰的ニューラルネットワークに基づく微粒な因果抽出器を提案する。
我々のアプローチは、自然言語で書かれた因果文の合成を回復することができる。
論文 参考訳(メタデータ) (2021-07-21T09:52:10Z) - ESTER: A Machine Reading Comprehension Dataset for Event Semantic
Relation Reasoning [49.795767003586235]
イベントセマンティックリレーション推論のための包括的な機械学習理解データセットESTERを紹介します。
もっともよく使われるイベント意味関係を5つ検討し、質問応答タスクとして定式化します。
実験の結果、現在のSOTAシステムは、イベントベースF1、トークンベースF1、HIT@1スコアそれぞれ60.5%、57.8%、76.3%を達成した。
論文 参考訳(メタデータ) (2021-04-16T19:59:26Z) - Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。
我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。
本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。