論文の概要: The 2021 Tokyo Olympics Multilingual News Article Dataset
- arxiv url: http://arxiv.org/abs/2502.06648v1
- Date: Mon, 10 Feb 2025 16:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:51.980967
- Title: The 2021 Tokyo Olympics Multilingual News Article Dataset
- Title(参考訳): 2021年東京五輪多言語ニュース記事データセット
- Authors: Erik Novak, Erik Calcina, Dunja Mladenić, Marko Grobelnik,
- Abstract要約: 2021年オリンピックの1,350のサブイベントをカバーする1,918の異なる出版社から、合計で10,940のニュース記事が集められた。
これらの記事は、異なる言語族と異なるスクリプトの9つの言語で書かれています。
このデータセットの開発は、多言語ニュースクラスタリングアルゴリズムの性能を評価するためのリソースを提供することを目的としている。
- 参考スコア(独自算出の注目度): 0.9749638953163389
- License:
- Abstract: In this paper, we introduce a dataset of multilingual news articles covering the 2021 Tokyo Olympics. A total of 10,940 news articles were gathered from 1,918 different publishers, covering 1,350 sub-events of the 2021 Olympics, and published between July 1, 2021, and August 14, 2021. These articles are written in nine languages from different language families and in different scripts. To create the dataset, the raw news articles were first retrieved via a service that collects and analyzes news articles. Then, the articles were grouped using an online clustering algorithm, with each group containing articles reporting on the same sub-event. Finally, the groups were manually annotated and evaluated. The development of this dataset aims to provide a resource for evaluating the performance of multilingual news clustering algorithms, for which limited datasets are available. It can also be used to analyze the dynamics and events of the 2021 Tokyo Olympics from different perspectives. The dataset is available in CSV format and can be accessed from the CLARIN.SI repository.
- Abstract(参考訳): 本稿では,2021年東京五輪を対象とする多言語ニュース記事のデータセットについて紹介する。
合計で10,940のニュース記事が1,918の異なる出版社から集められ、2021年オリンピックの1,350のサブイベントをカバーし、2021年7月1日から2021年8月14日まで発行された。
これらの記事は、異なる言語族と異なるスクリプトの9つの言語で書かれています。
データセットを作成するために、生のニュース記事が最初に検索されたのは、ニュース記事を収集して分析するサービスだった。
その後、オンラインクラスタリングアルゴリズムを用いて、各グループに同じサブイベントを報告した記事を含む記事群をグループ化した。
最終的に、これらのグループは手動で注釈付けされ、評価された。
このデータセットの開発は、限られたデータセットが利用可能な多言語ニュースクラスタリングアルゴリズムの性能を評価するためのリソースを提供することを目的としている。
また、2021年東京五輪のダイナミクスやイベントを異なる視点から分析することもできる。
データセットはCSV形式で利用可能であり、CLARIN.SIリポジトリからアクセスできる。
関連論文リスト
- A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - MN-DS: A Multilabeled News Dataset for News Articles Hierarchical
Classification [0.0]
この記事では、2019年1月1日から12月31日までに収集された階層的なニュースカテゴリを持つ10,917のニュース記事のデータセットを示す。
記事は17の第一級と109の第二級の階層的な分類に基づいて手動でラベル付けした。
このデータセットは、トピック毎にニュース記事を自動的に分類するマシンラーニングモデルをトレーニングするために使用することができる。
論文 参考訳(メタデータ) (2022-12-22T22:27:26Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - A System for Worldwide COVID-19 Information Aggregation [92.60866520230803]
我々は、トピックによって分類された7言語10の地域から信頼できる記事を含む世界的な新型コロナウイルス情報収集システムを構築した。
ニューラルマシン翻訳モジュールは、他言語の論文を日本語と英語に翻訳する。
記事とトピックのペアデータセットに基づいてトレーニングされたBERTベースのトピック分類器は、ユーザが興味のある情報を効率的に見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-07-28T01:33:54Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。