論文の概要: \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing)
- arxiv url: http://arxiv.org/abs/2104.09647v1
- Date: Mon, 19 Apr 2021 21:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 03:33:22.357926
- Title: \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing)
- Title(参考訳): \textit{NewsEdits}:ニュース記事の改訂履歴のデータセット(技術報告:データ処理)
- Authors: Alexander Spangher and Jonathan May
- Abstract要約: textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
- 参考スコア(独自算出の注目度): 89.77347919191774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News article revision histories have the potential to give us novel insights
across varied fields of linguistics and social sciences. In this work, we
present, to our knowledge, the first publicly available dataset of news article
revision histories, or \textit{NewsEdits}.
Our dataset is multilingual; it contains 1,278,804 articles with 4,609,430
versions from over 22 English- and French-language newspaper sources based in
three countries. Across version pairs, we count 10.9 million added sentences;
8.9 million changed sentences and 6.8 million removed sentences. Within the
changed sentences, we derive 72 million atomic edits. \textit{NewsEdits} is, to
our knowledge, the largest corpus of revision histories of any domain.
- Abstract(参考訳): ニュース記事リビジョンの歴史は、言語学と社会科学のさまざまな分野にまたがる新しい洞察を与える可能性がある。
本稿では,我々の知る限り,最初に公開されたニュース記事のリビジョン履歴データセットである「textit{NewsEdits}」を紹介する。
うちのデータセットは多言語で、1,278,804の記事と、22以上の英語とフランス語の新聞ソースから4,609,430のバージョンがある。
バージョンペア間では、追加文が1090万、変更文が890万、削除された文章が680万である。
変更文の中では、7200万の原子編集を導き出します。
\textit{newsedits} は、我々の知識では、あらゆるドメインのリビジョン履歴の最大のコーパスです。
関連論文リスト
- 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - Multilingual Open Text 1.0: Public Domain News in 44 Languages [2.642698101441705]
コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
論文 参考訳(メタデータ) (2022-01-14T18:58:17Z) - A System for Worldwide COVID-19 Information Aggregation [92.60866520230803]
我々は、トピックによって分類された7言語10の地域から信頼できる記事を含む世界的な新型コロナウイルス情報収集システムを構築した。
ニューラルマシン翻訳モジュールは、他言語の論文を日本語と英語に翻訳する。
記事とトピックのペアデータセットに基づいてトレーニングされたBERTベースのトピック分類器は、ユーザが興味のある情報を効率的に見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-07-28T01:33:54Z) - FakeCovid -- A Multilingual Cross-domain Fact Check News Dataset for
COVID-19 [0.0]
COVID-19に関する5182のファクトチェックされたニュース記事の最初の多言語クロスドメインデータセットを提示する。
我々は、PynterとSnopesから参照を得た後、92の異なるファクトチェックサイトからファクトチェックした記事を収集した。
データセットは105カ国から40言語で提供されている。
論文 参考訳(メタデータ) (2020-06-19T19:48:00Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。