論文の概要: NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge
- arxiv url: http://arxiv.org/abs/2206.07106v1
- Date: Tue, 14 Jun 2022 18:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 02:09:46.105421
- Title: NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge
- Title(参考訳): NewsEdits: ニュース記事のリビジョンデータセットとドキュメントレベル推論チャレンジ
- Authors: Alexander Spangher, Xiang Ren, Jonathan May and Nanyun Peng
- Abstract要約: NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
- 参考スコア(独自算出の注目度): 122.37011526554403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: News article revision histories provide clues to narrative and factual
evolution in news articles. To facilitate analysis of this evolution, we
present the first publicly available dataset of news revision histories,
NewsEdits. Our dataset is large-scale and multilingual; it contains 1.2 million
articles with 4.6 million versions from over 22 English- and French-language
newspaper sources based in three countries, spanning 15 years of coverage
(2006-2021).
We define article-level edit actions: Addition, Deletion, Edit and Refactor,
and develop a high-accuracy extraction algorithm to identify these actions. To
underscore the factual nature of many edit actions, we conduct analyses showing
that added and deleted sentences are more likely to contain updating events,
main content and quotes than unchanged sentences.
Finally, to explore whether edit actions are predictable, we introduce three
novel tasks aimed at predicting actions performed during version updates. We
show that these tasks are possible for expert humans but are challenging for
large NLP models. We hope this can spur research in narrative framing and help
provide predictive tools for journalists chasing breaking news.
- Abstract(参考訳): ニュース記事改訂史は、ニュース記事における物語と事実進化の手がかりを提供する。
この進化の分析を容易にするために,我々は,ニュースリビジョン履歴の公開データセットであるnewseditsを提案する。
私たちのデータセットは大規模で多言語で、15年間の報道(2006-2021年)にまたがる3カ国の22以上の英語とフランス語の新聞ソースから、120万の記事と460万のバージョンを含んでいます。
記事レベルの編集アクションの定義: 追加,削除,編集,リファクタリング,およびこれらのアクションを識別するための高精度な抽出アルゴリズムの開発。
多くの編集動作の実態を明らかにするために,追加文や削除文が変更文よりも更新文,主内容,引用文を含む可能性が高いことを示す。
最後に、編集動作が予測可能であるかどうかを調べるために、バージョン更新中に実行される動作を予測するための3つの新しいタスクを導入する。
これらのタスクは、専門家にとっては可能であるが、大規模なNLPモデルでは困難であることを示す。
このことがナラティブ・フレーミングの研究を刺激し、ジャーナリストがニュースを追いかけるための予測ツールを提供することを期待している。
関連論文リスト
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [11.597314728459573]
我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。
本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。
論文 参考訳(メタデータ) (2024-02-22T01:20:17Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Text2Time: Transformer-based Article Time Period Prediction [0.11470070927586018]
本研究は,テキストの内容に基づいて,文章,特にニュース記事の出版時期を予測することの問題点を考察する。
私たちは、ニューヨーク・タイムズが60年以上にわたって発行した35万件以上のニュース記事のラベル付きデータセットを作成しました。
提案手法では,テキスト分類のタスク,特に時刻予測のために,事前訓練されたBERTモデルを用いている。
論文 参考訳(メタデータ) (2023-04-21T10:05:03Z) - Designing and Evaluating Interfaces that Highlight News Coverage
Diversity Using Discord Questions [84.55145223950427]
本稿は,ニュース記事のための大規模なソースコレクションをナビゲートすることは,それ以上のガイダンスなしでは困難であることを示す。
本稿では,ニュース読者が読みながら範囲の多様性を発見することを目的とした,注釈記事,要約記事,質問表の3つのインタフェースを設計する。
論文 参考訳(メタデータ) (2023-02-17T16:59:31Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - No News is Good News: A Critique of the One Billion Word Benchmark [4.396860522241306]
10億ワードベンチマークは、WMT 2011 News Crawlから派生したデータセットである。
毎年分割されたCommon Crawlのウェブスクラップにのみモデルをトレーニングし、分散シフトによる時間経過とともに、このタスクに悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-10-25T02:41:27Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - Viable Threat on News Reading: Generating Biased News Using Natural
Language Models [49.90665530780664]
公開されている言語モデルは、入力されたオリジナルニュースに基づいてバイアスのあるニュースコンテンツを確実に生成できることを示す。
また、制御可能なテキスト生成を用いて、多数の高品質な偏りのあるニュース記事を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-05T16:55:39Z) - CompRes: A Dataset for Narrative Structure in News [2.4578723416255754]
ニュースメディアにおける物語構造のための最初のデータセットであるCompResを紹介する。
アノテーション付きデータセットを使用して、複数の教師付きモデルをトレーニングし、異なる物語要素を識別します。
論文 参考訳(メタデータ) (2020-07-09T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。