論文の概要: MIND - Mainstream and Independent News Documents Corpus
- arxiv url: http://arxiv.org/abs/2108.06249v1
- Date: Fri, 13 Aug 2021 14:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 15:50:43.769580
- Title: MIND - Mainstream and Independent News Documents Corpus
- Title(参考訳): 心 - 主流・独立系ニュース文書コーパス
- Authors: Danielle Caled, Paula Carvalho, M\'ario J. Silva
- Abstract要約: 本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
- 参考スコア(独自算出の注目度): 0.7347989843033033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents and characterizes MIND, a new Portuguese corpus comprised
of different types of articles collected from online mainstream and alternative
media sources, over a 10-month period. The articles in the corpus are organized
into five collections: facts, opinions, entertainment, satires, and conspiracy
theories. Throughout this paper, we explain how the data collection process was
conducted, and present a set of linguistic metrics that allow us to perform a
preliminary characterization of the texts included in the corpus. Also, we
deliver an analysis of the most frequent topics in the corpus, and discuss the
main differences and similarities among the collections considered. Finally, we
enumerate some tasks and applications that could benefit from this corpus, in
particular the ones (in)directly related to misinformation detection. Overall,
our contribution of a corpus and initial analysis are designed to support
future exploratory news studies, and provide a better insight into
misinformation.
- Abstract(参考訳): 本稿は、オンライン主流および代替メディアソースから10ヶ月にわたって収集されたさまざまな種類の記事からなるポルトガル語コーパスであるMINDを提示し、特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
本稿では,データ収集プロセスがどのように行われたかを説明し,コーパスに含まれるテキストの予備的なキャラクタリゼーションを行うことができる言語メトリクスのセットを提案する。
また, コーパスにおける最も頻繁なトピックの分析を行い, 検討したコレクションの主な相違点と類似点について考察する。
最後に、このコーパスの恩恵を受けうるいくつかのタスクやアプリケーション、特に(間接的に)誤った情報検出に関連するタスクを列挙します。
全体として、コーパスの貢献と初期分析は、将来の探索的ニュース研究を支援し、誤情報に関するより良い洞察を提供するように設計されている。
関連論文リスト
- Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Code Book for the Annotation of Diverse Cross-Document Coreference of
Entities in News Articles [0.0]
それぞれのアノテーションツールであるインセプションのセットアップ方法や、ニュース記事のエンティティの注釈付け方法、様々な中核関係とリンクする方法、Wikidataのグローバルな知識グラフへのドキュメントのリンクなど、詳細な説明が含まれている。
我々の主な貢献は、単語選択とラベル付けによるメディアバイアスの分析に適用可能な、多種多様なクロスドキュメント・コア参照コーパスを作成するための方法論を提供することである。
論文 参考訳(メタデータ) (2023-10-18T15:53:45Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Cross-context News Corpus for Protest Events related Knowledge Base
Construction [0.15393457051344295]
我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
論文 参考訳(メタデータ) (2020-08-01T22:20:48Z) - Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named
Entities [18.458831729497224]
従来のニュースソースのRSSフィードからデータを継続的に収集する。
論文,段落,文レベルで各ニュース記事の感情分析を行う。
このコーパス内のデータは、ニュースレポートのバイアスを特定するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-06-05T17:59:12Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。