論文の概要: CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English
- arxiv url: http://arxiv.org/abs/2510.19628v1
- Date: Wed, 22 Oct 2025 14:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.925553
- Title: CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English
- Title(参考訳): CrossNews-UA: ウクライナ語、ポーランド語、ロシア語、英語のための言語間ニュースセマンティック類似性ベンチマーク
- Authors: Daryna Dementieva, Evgeniya Sukhodolskaya, Alexander Fraser,
- Abstract要約: 言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
- 参考スコア(独自算出の注目度): 53.32175252285023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of social networks and rapid misinformation spread, news analysis remains a critical task. Detecting fake news across multiple languages, particularly beyond English, poses significant challenges. Cross-lingual news comparison offers a promising approach to verify information by leveraging external sources in different languages (Chen and Shu, 2024). However, existing datasets for cross-lingual news analysis (Chen et al., 2022a) were manually curated by journalists and experts, limiting their scalability and adaptability to new languages. In this work, we address this gap by introducing a scalable, explainable crowdsourcing pipeline for cross-lingual news similarity assessment. Using this pipeline, we collected a novel dataset CrossNews-UA of news pairs in Ukrainian as a central language with linguistically and contextually relevant languages-Polish, Russian, and English. Each news pair is annotated for semantic similarity with detailed justifications based on the 4W criteria (Who, What, Where, When). We further tested a range of models, from traditional bag-of-words, Transformer-based architectures to large language models (LLMs). Our results highlight the challenges in multilingual news analysis and offer insights into models performance.
- Abstract(参考訳): ソーシャルネットワークの時代と急激な誤報が広まる中、ニュース分析は依然として重要な課題である。
複数の言語、特に英語以外の偽ニュースを検出することは、大きな課題となる。
言語間のニュース比較は、異なる言語(ChenとShu、2024年)の外部ソースを活用することで、情報を検証するための有望なアプローチを提供する。
しかし、既存の言語間ニュース分析用データセット(Chen et al , 2022a)は、ジャーナリストや専門家によって手作業でキュレートされ、そのスケーラビリティと新しい言語への適応性が制限された。
本研究では,言語間ニュース類似度評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入することで,このギャップに対処する。
このパイプラインを用いて、ウクライナ語におけるニュースペアの新たなデータセットであるCrossNews-UAを、言語的および文脈的に関連する言語(ポーランド語、ロシア語、英語)で中心的な言語として収集した。
各ニュースペアは4W基準(Who, What, Where, When)に基づいた詳細な正当化とセマンティックな類似性のために注釈付けされる。
さらに、従来のbacker-of-words、Transformerベースのアーキテクチャ、大規模言語モデル(LLM)など、さまざまなモデルをテストしました。
本結果は,多言語ニュース分析における課題を強調し,モデル性能に関する洞察を提供する。
関連論文リスト
- Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings [7.401514098389491]
中国語と英語の両方で文レベルのバイリンガルテキストを表現できる知識蒸留を用いて言語間モデルを訓練する。
我々は、ニュースコンテキストにシングルパスクラスタリングアルゴリズムを適用し、より適用できるようにする。
論文 参考訳(メタデータ) (2023-05-30T09:24:55Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。