論文の概要: Cross-context News Corpus for Protest Events related Knowledge Base
Construction
- arxiv url: http://arxiv.org/abs/2008.00351v1
- Date: Sat, 1 Aug 2020 22:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 00:36:46.704375
- Title: Cross-context News Corpus for Protest Events related Knowledge Base
Construction
- Title(参考訳): 抗議イベント関連知識ベース構築のためのクロスコンテキストニュースコーパス
- Authors: Ali H\"urriyeto\u{g}lu, Erdem Y\"or\"uk, Deniz Y\"uret, Osman Mutlu,
\c{C}a\u{g}r{\i} Yoltar, F{\i}rat Duru\c{s}an, Burak G\"urel
- Abstract要約: 我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
- 参考スコア(独自算出の注目度): 0.15393457051344295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a gold standard corpus of protest events that comprise of various
local and international sources from various countries in English. The corpus
contains document, sentence, and token level annotations. This corpus
facilitates creating machine learning models that automatically classify news
articles and extract protest event-related information, constructing knowledge
bases which enable comparative social and political science studies. For each
news source, the annotation starts on random samples of news articles and
continues with samples that are drawn using active learning. Each batch of
samples was annotated by two social and political scientists, adjudicated by an
annotation supervisor, and was improved by identifying annotation errors
semi-automatically. We found that the corpus has the variety and quality to
develop and benchmark text classification and event extraction systems in a
cross-context setting, which contributes to the generalizability and robustness
of automated text processing systems. This corpus and the reported results will
set the currently lacking common ground in automated protest event collection
studies.
- Abstract(参考訳): 英語の様々な国からの様々な地域的・国際的ソースからなる抗議イベントの金本位制コーパスについて述べる。
コーパスには文書、文、トークンレベルのアノテーションが含まれている。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にし、社会科学と政治科学の比較研究を可能にする知識ベースを構築する。
各ニュースソースについて、アノテーションはニュース記事のランダムなサンプルから始まり、アクティブな学習を用いて描画されたサンプルで続く。
各サンプルのバッチは2人の社会・政治科学者によって注釈監督官によってアノテートされ、アノテーションエラーを半自動的に識別することで改善された。
テキスト分類とイベント抽出システムの開発とベンチマークを行う上で,コーパスには多様性と品質があり,テキスト自動処理システムの汎用性と堅牢性に寄与することがわかった。
このコーパスと報告された結果は、現在、自動抗議イベント収集研究の共通基盤を欠いている。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - EDSA-Ensemble: an Event Detection Sentiment Analysis Ensemble
Architecture [63.85863519876587]
Sentiment Analysisを使って、イベントに属する各メッセージの極性やイベント全体を理解することで、オンラインソーシャルネットワークにおける重要なトレンドやダイナミクスに関する一般的な感情や個人の感情をよりよく理解することができます。
本研究では,ソーシャルメディアから現在起きているイベントの極性検出を改善するために,イベント検出と知覚分析を用いた新しいアンサンブルアーキテクチャEDSA-Ensembleを提案する。
論文 参考訳(メタデータ) (2023-01-30T11:56:08Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction [0.665264113799989]
CrudeOilNewsはイングリッシュ・クルード・オイル・ニュースのコーパスである。
商品ニュースとしては初めてであり、経済・財政的なテキストマイニングのための資源建設に貢献する。
論文 参考訳(メタデータ) (2022-04-08T06:51:35Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - Corpus-Level Evaluation for Event QA: The IndiaPoliceEvents Corpus
Covering the 2002 Gujarat Violence [11.610715844912368]
2002年3月、グジャラート州における出来事に関する1257の英語タイムズから21,391通の文をインディアポリスイベントコーパスで紹介した。
訓練された注釈者は、すべての文書を警察活動イベントの言及のために読み、ラベル付けし、不偏なリコール評価を可能にしました。
論文 参考訳(メタデータ) (2021-05-27T04:15:44Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - AMALGUM -- A Free, Balanced, Multilayer English Web Corpus [14.073494095236027]
ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-18T17:05:45Z) - Seeing the Forest and the Trees: Detection and Cross-Document
Coreference Resolution of Militarized Interstate Disputes [3.8073142980733]
テキスト中の特定の政治事象を識別し、共有イベントに基づいて関連テキストを相互にリンクする手法を評価するためのデータセットを提供する。
データセットであるHeadlines of Warは、Militarized Interstate Disputesデータセットに基づいて構築され、問題ステータスとコア参照インジケータでラベル付けされた見出しペアによって分類された見出しを提供する。
このマルチタスク畳み込みニューラルネットワークは,見出しのテキストや出版日時からイベントやイベントのコアを認識できることが示されている。
論文 参考訳(メタデータ) (2020-05-06T17:20:14Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。