論文の概要: CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English
- arxiv url: http://arxiv.org/abs/2510.19628v1
- Date: Wed, 22 Oct 2025 14:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.925553
- Title: CrossNews-UA: A Cross-lingual News Semantic Similarity Benchmark for Ukrainian, Polish, Russian, and English
- Title(参考訳): CrossNews-UA: ウクライナ語、ポーランド語、ロシア語、英語のための言語間ニュースセマンティック類似性ベンチマーク
- Authors: Daryna Dementieva, Evgeniya Sukhodolskaya, Alexander Fraser,
- Abstract要約: 言語間のニュース比較は、情報の検証に有望なアプローチを提供する。
既存の言語間ニュース分析用のデータセットは、ジャーナリストや専門家によって手作業でキュレートされた。
我々は、多言語間ニュース類似性評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入する。
- 参考スコア(独自算出の注目度): 53.32175252285023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of social networks and rapid misinformation spread, news analysis remains a critical task. Detecting fake news across multiple languages, particularly beyond English, poses significant challenges. Cross-lingual news comparison offers a promising approach to verify information by leveraging external sources in different languages (Chen and Shu, 2024). However, existing datasets for cross-lingual news analysis (Chen et al., 2022a) were manually curated by journalists and experts, limiting their scalability and adaptability to new languages. In this work, we address this gap by introducing a scalable, explainable crowdsourcing pipeline for cross-lingual news similarity assessment. Using this pipeline, we collected a novel dataset CrossNews-UA of news pairs in Ukrainian as a central language with linguistically and contextually relevant languages-Polish, Russian, and English. Each news pair is annotated for semantic similarity with detailed justifications based on the 4W criteria (Who, What, Where, When). We further tested a range of models, from traditional bag-of-words, Transformer-based architectures to large language models (LLMs). Our results highlight the challenges in multilingual news analysis and offer insights into models performance.
- Abstract(参考訳): ソーシャルネットワークの時代と急激な誤報が広まる中、ニュース分析は依然として重要な課題である。
複数の言語、特に英語以外の偽ニュースを検出することは、大きな課題となる。
言語間のニュース比較は、異なる言語(ChenとShu、2024年)の外部ソースを活用することで、情報を検証するための有望なアプローチを提供する。
しかし、既存の言語間ニュース分析用データセット(Chen et al , 2022a)は、ジャーナリストや専門家によって手作業でキュレートされ、そのスケーラビリティと新しい言語への適応性が制限された。
本研究では,言語間ニュース類似度評価のためのスケーラブルで説明可能なクラウドソーシングパイプラインを導入することで,このギャップに対処する。
このパイプラインを用いて、ウクライナ語におけるニュースペアの新たなデータセットであるCrossNews-UAを、言語的および文脈的に関連する言語(ポーランド語、ロシア語、英語)で中心的な言語として収集した。
各ニュースペアは4W基準(Who, What, Where, When)に基づいた詳細な正当化とセマンティックな類似性のために注釈付けされる。
さらに、従来のbacker-of-words、Transformerベースのアーキテクチャ、大規模言語モデル(LLM)など、さまざまなモデルをテストしました。
本結果は,多言語ニュース分析における課題を強調し,モデル性能に関する洞察を提供する。
関連論文リスト
- Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data [1.0025691625593705]
本研究では、言語間テキスト分類における異なるアプローチが、グローバルな会話の信頼性分析にどう役立つかを検討する。
水素エネルギーをケーススタディとして、英語、日本語、ヒンディー語、韓国語で900万以上のツイートを10年間にわたって分析しました。
論文 参考訳(メタデータ) (2026-02-19T03:46:11Z) - Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings [7.401514098389491]
中国語と英語の両方で文レベルのバイリンガルテキストを表現できる知識蒸留を用いて言語間モデルを訓練する。
我々は、ニュースコンテキストにシングルパスクラスタリングアルゴリズムを適用し、より適用できるようにする。
論文 参考訳(メタデータ) (2023-05-30T09:24:55Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。