論文の概要: M2DS: Multilingual Dataset for Multi-document Summarisation
- arxiv url: http://arxiv.org/abs/2407.12336v1
- Date: Wed, 17 Jul 2024 06:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:17:30.661481
- Title: M2DS: Multilingual Dataset for Multi-document Summarisation
- Title(参考訳): M2DS:マルチドキュメント要約のための多言語データセット
- Authors: Kushan Hewapathirana, Nisansa de Silva, C. D. Athuraliya,
- Abstract要約: MDS(Multi-document Summarisation)は、顧客レビュー、学術論文、医療および法律文書、ニュース記事を含む多様なデータセットを提供する。
しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおいて、多言語データセットの顕著な空白を生み出している。
本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。
- 参考スコア(独自算出の注目度): 0.5071800070021028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving digital era, there is an increasing demand for concise information as individuals seek to distil key insights from various sources. Recent attention from researchers on Multi-document Summarisation (MDS) has resulted in diverse datasets covering customer reviews, academic papers, medical and legal documents, and news articles. However, the English-centric nature of these datasets has created a conspicuous void for multilingual datasets in today's globalised digital landscape, where linguistic diversity is celebrated. Media platforms such as British Broadcasting Corporation (BBC) have disseminated news in 20+ languages for decades. With only 380 million people speaking English natively as their first language, accounting for less than 5% of the global population, the vast majority primarily relies on other languages. These facts underscore the need for inclusivity in MDS research, utilising resources from diverse languages. Recognising this gap, we present the Multilingual Dataset for Multi-document Summarisation (M2DS), which, to the best of our knowledge, is the first dataset of its kind. It includes document-summary pairs in five languages from BBC articles published during the 2010-2023 period. This paper introduces M2DS, emphasising its unique multilingual aspect, and includes baseline scores from state-of-the-art MDS models evaluated on our dataset.
- Abstract(参考訳): 急速に発展するデジタル時代には、個人が様々な情報源から重要な洞察を消し去ろうとするにつれて、簡潔な情報に対する需要が高まっている。
MDS(Multi-document Summarisation)の研究者による近年の注目は、顧客レビュー、学術論文、医療・法律文書、ニュース記事などを含む多様なデータセットを生み出している。
しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおける多言語データセットの顕著な空白を生み出し、言語多様性が祝われている。
ブリティッシュ・ブロードキャスティング・コーポレーション(BBC)のようなメディアプラットフォームは、何十年にもわたって20以上の言語でニュースを広めてきた。
英語を母語とする言語は3億8000万人に過ぎず、世界の人口の5%にも満たないが、大多数は他言語に依存している。
これらの事実はMDS研究における傾きの必要性を浮き彫りにし、様々な言語からの資源を活用している。
このギャップを認識し、我々はM2DS(Multilingual Dataset for Multi-document Summarisation)を提示する。
2010-2023年に発行されたBBCの記事から5つの言語で文書と要約のペアが収録されている。
本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - A Mixed-Language Multi-Document News Summarization Dataset and a Graphs-Based Extract-Generate Model [15.596156608713347]
現実のシナリオでは、国際イベントに関するニュースは、しばしば異なる言語で複数のドキュメントを含む。
混合言語多文書ニュース要約データセット(MLMD-news)を構築する。
このデータセットには、4つの異なる言語、10,992のソースドキュメントクラスタとターゲット要約ペアが含まれている。
論文 参考訳(メタデータ) (2024-10-13T08:15:33Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - MMT: A Multilingual and Multi-Topic Indian Social Media Dataset [1.0413233169366503]
ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
論文 参考訳(メタデータ) (2023-04-02T21:39:00Z) - MUTANT: A Multi-sentential Code-mixed Hinglish Dataset [16.14337612590717]
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
論文 参考訳(メタデータ) (2023-02-23T04:04:18Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。