論文の概要: 20min-XD: A Comparable Corpus of Swiss News Articles
- arxiv url: http://arxiv.org/abs/2504.21677v1
- Date: Wed, 30 Apr 2025 14:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:26:44.074886
- Title: 20min-XD: A Comparable Corpus of Swiss News Articles
- Title(参考訳): 20min-XD:スイスのニュース記事の比較可能なコーパス
- Authors: Michelle Wastl, Jannis Vamvas, Selena Calleri, Rico Sennrich,
- Abstract要約: 20min-XD (20 Minuten cross-lingual document-level) は、フランスの新聞記事に匹敵する文書レベルのコーパスである。
私たちのデータセットは、2015年から2024年の間に15,000の記事ペアで構成され、セマンティックな類似性に基づいて自動的に一致します。
得られたデータセットは、近翻訳から緩やかな関連記事まで、多岐にわたる言語間類似性を示す。
- 参考スコア(独自算出の注目度): 42.49142747741821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present 20min-XD (20 Minuten cross-lingual document-level), a French-German, document-level comparable corpus of news articles, sourced from the Swiss online news outlet 20 Minuten/20 minutes. Our dataset comprises around 15,000 article pairs spanning 2015 to 2024, automatically aligned based on semantic similarity. We detail the data collection process and alignment methodology. Furthermore, we provide a qualitative and quantitative analysis of the corpus. The resulting dataset exhibits a broad spectrum of cross-lingual similarity, ranging from near-translations to loosely related articles, making it valuable for various NLP applications and broad linguistically motivated studies. We publicly release the dataset in document- and sentence-aligned versions and code for the described experiments.
- Abstract(参考訳): 20min-XD (20 Minuten cross-lingual document-level) は、スイスのオンラインニュースメディアである20 Minuten/20分(20 Minuten/20分)から引用された、フランス語とドイツ語の文書レベルの同等のニュース記事のコーパスである。
私たちのデータセットは、2015年から2024年の間に15,000の記事ペアで構成され、セマンティックな類似性に基づいて自動的に一致します。
データ収集プロセスとアライメント方法論について詳述する。
さらに,コーパスの質的,定量的な分析を行った。
得られたデータセットは、近翻訳から緩やかな関連記事まで幅広い言語間類似性を示しており、様々なNLPアプリケーションや幅広い言語的動機付け研究に有用である。
このデータセットは、記述された実験のための文書と文の一致したバージョンとコードで公開しています。
関連論文リスト
- The 2021 Tokyo Olympics Multilingual News Article Dataset [0.9749638953163389]
2021年オリンピックの1,350のサブイベントをカバーする1,918の異なる出版社から、合計で10,940のニュース記事が集められた。
これらの記事は、異なる言語族と異なるスクリプトの9つの言語で書かれています。
このデータセットの開発は、多言語ニュースクラスタリングアルゴリズムの性能を評価するためのリソースを提供することを目的としている。
論文 参考訳(メタデータ) (2025-02-10T16:38:03Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-04-19T02:02:29Z) - LANS: Large-scale Arabic News Summarization Corpus [20.835296945483275]
我々は、アラビア文字要約タスクのための大規模かつ多様なデータセットであるLANSを構築している。
LANSは、1999年から2019年の間に新聞のウェブサイトから抽出した840万記事と要約を提供している。
論文 参考訳(メタデータ) (2022-10-24T20:54:01Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。