論文の概要: Rewrite the News: Tracing Editorial Reuse Across News Agencies
- arxiv url: http://arxiv.org/abs/2603.29937v1
- Date: Tue, 31 Mar 2026 16:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.841741
- Title: Rewrite the News: Tracing Editorial Reuse Across News Agencies
- Title(参考訳): ニュースの書き直し:ニュース機関全体にわたる編集者の再利用の追跡
- Authors: Soveatin Kuntur, Nina Smirnova, Anna Wroblewska, Philipp Mayr, Sebastijan Razboršek Maček,
- Abstract要約: 完全翻訳を必要とせずに文レベルの言語間再利用を検出する弱教師付き手法を提案する。
この研究は、スロベニア通信社(Slovenian Press Agency)の英語記事と、15の外国機関からの報告を比較した。
再利用されたコンテンツは英語記事の中端に現れる傾向があり、リードはしばしばオリジナルである。
- 参考スコア(独自算出の注目度): 2.108916445920616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates sentence-level text reuse in multilingual journalism, analyzing where reused content occurs within articles. We present a weakly supervised method for detecting sentence-level cross-lingual reuse without requiring full translations, designed to support automated pre-selection to reduce information overload for journalists (Holyst et al., 2024). The study compares English-language articles from the Slovenian Press Agency (STA) with reports from 15 foreign agencies (FA) in seven languages, using publication timestamps to retain the earliest likely foreign source for each reused sentence. We analyze 1,037 STA and 237,551 FA articles from two time windows (October 7-November 2, 2023; February 1-28, 2025) and identify 1,087 aligned sentence pairs after filtering to the earliest sources. Reuse occurs in 52% of STA articles and 1.6% of FA articles and is predominantly non-literal, involving paraphrase and compositional reuse from multiple sources. Reused content tends to appear in the middle and end of English articles, while leads are more often original, indicating that simple lexical matching overlooks substantial editorial reuse. Compared with prior work focused on monolingual overlap, we (i) detect reuse across languages without requiring full translation, (ii) use publication timing to identify likely sources, and (iii) analyze where reused material is situated within articles. Dataset and code: https://github.com/kunturs/lrec2026-rewrite-news.
- Abstract(参考訳): 本稿では、多言語ジャーナリズムにおける文レベルのテキスト再利用について検討し、再利用されたコンテンツが記事内でどこで発生するかを分析する。
本稿では,ジャーナリストの情報過負荷を軽減するための自動事前選択を支援するために,全文翻訳を必要とせずに文レベルの言語間再利用を検出する弱教師付き手法を提案する(Holyst et al , 2024)。
この研究は、スロベニア報道庁(STA)の英語記事と、7つの言語における15の外国機関(FA)からの報告を比較した。
2つの時間窓(2023年10月7日~11月2日~28日~2025年2月1日)から1,037 STAと237,551個のFA項目を分析し,最初期の情報源にフィルタリングした後,1,087個の文対を同定した。
再利用はSTA記事の52%、FA記事の1.6%で行われ、主にノンリテラルであり、パラフレーズや複数のソースからの合成再利用を含んでいる。
再使用されたコンテンツは、英語記事の中と終わりに現れる傾向があり、リードは、しばしばオリジナルであり、単純な語彙マッチングが実質的な編集の再利用を見落としていることを示している。
モノリンガルの重複に着目した先行研究と比較して、私たちは
(i)全翻訳を必要とせずに言語間の再利用を検出する。
二 出版の時期を利用して、見込みのある資料を特定し、
三 再利用物が物品の中にどこにあるかを分析すること。
データセットとコード:https://github.com/kunturs/lrec2026-rewrite-news
関連論文リスト
- CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English [53.32175252285023]
言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-22T14:23:50Z) - EUvsDisinfo: A Dataset for Multilingual Detection of Pro-Kremlin Disinformation in News Articles [4.895830603263421]
この研究は、EUvsDisinfoという、プロクレムリンアウトレットから派生した偽情報の多言語データセットを紹介している。
EUvsDisinfoプロジェクトのリーダーである専門家によって書かれたデバンク記事から直接引用されている。
我々のデータセットは、記事の総数と異なる言語に関して、これまでで最大のリソースです。
論文 参考訳(メタデータ) (2024-06-18T13:43:22Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。