論文の概要: News Category Dataset
- arxiv url: http://arxiv.org/abs/2209.11429v1
- Date: Fri, 23 Sep 2022 06:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 14:00:29.770001
- Title: News Category Dataset
- Title(参考訳): ニュースカテゴリデータセット
- Authors: Rishabh Misra
- Abstract要約: HuffPostから入手した2012年から2018年までの約200万のニュースの見出しを含むNews Categoryデータセットを提示する。
本稿では,データセットから新たな知見を導き,データセットの既存および潜在的応用について述べる。
- 参考スコア(独自算出の注目度): 1.7513645771137178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People rely on news to know what is happening around the world and inform
their daily lives. In today's world, when the proliferation of fake news is
rampant, having a large-scale and high-quality source of authentic news
articles with the published category information is valuable to learning
authentic news' Natural Language syntax and semantics. As part of this work, we
present a News Category Dataset that contains around 200k news headlines from
the year 2012 to 2018 obtained from HuffPost, along with useful metadata to
enable various NLP tasks. In this paper, we also produce some novel insights
from the dataset and describe various existing and potential applications of
our dataset.
- Abstract(参考訳): 人々は世界中の出来事を知るためにニュースを頼りにし、日々の生活を知らせる。
今日の世界では、偽ニュースの拡散が激しくなると、出版されたカテゴリ情報を持つ真正ニュース記事の大規模かつ高品質なソースを持つことは、真正ニュースの自然言語構文と意味論を学ぶ上で有用である。
この作業の一環として、HuffPostから2012年から2018年までの約200万のニュース見出しと、さまざまなNLPタスクを可能にする有用なメタデータを含むNews Category Datasetを紹介します。
本稿では,データセットから新たな知見を導き,データセットのさまざまな既存および潜在的応用について述べる。
関連論文リスト
- 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - A Multilingual Similarity Dataset for News Article Frame [14.977682986280998]
16,687の新しいラベル付きペアを用いた大規模ラベル付きニュース記事データセットの拡張版を導入する。
本手法は,従来のニュースフレーム分析研究において,フレームクラスを手動で識別する作業を自由化する。
全体としては10言語にまたがって26,555のラベル付きニュース記事ペアで利用可能な、最も広範な言語間ニュース記事類似性データセットを紹介します。
論文 参考訳(メタデータ) (2024-05-22T01:01:04Z) - Adapting Fake News Detection to the Era of Large Language Models [48.5847914481222]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese [0.6775616141339018]
本稿ではブラジルポルトガル語における偽ニュースの検出に関する総合的研究について述べる。
本稿では、TF-IDFやWord2Vecといった自然言語処理技術を活用する機械学習ベースのアプローチを提案する。
ユーザフレンドリーなWebプラットフォームである fakenewsbr.com を開発し,ニュース記事の妥当性の検証を容易にする。
論文 参考訳(メタデータ) (2023-09-20T04:10:03Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - Islander: A Real-Time News Monitoring and Analysis System [22.67888928983199]
オンラインニュース分析システム「アイランド」について紹介する。
このシステムでは、複数のソースや視点からトレンドトピックを記事で閲覧することができる。
我々は,いくつかの指標をニュース品質のプロキシとして定義し,自動推定のためのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-25T06:20:49Z) - Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News
Dataset [1.7149364927872013]
「フェイクニュース」は多岐にわたる複雑な現象である。
本稿では,既存の偽ニュースデータセットの詳細な調査に基づいて,詳細なラベル付けを施した新しいアノテーション手法を提案する。
アノテーションスキームを用いて,日本初の偽ニュースデータセットを構築し,公開する。
論文 参考訳(メタデータ) (2022-04-06T10:42:39Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。