論文の概要: MegaWika: Millions of reports and their sources across 50 diverse
languages
- arxiv url: http://arxiv.org/abs/2307.07049v1
- Date: Thu, 13 Jul 2023 20:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:42:01.419875
- Title: MegaWika: Millions of reports and their sources across 50 diverse
languages
- Title(参考訳): MegaWika:50の言語にまたがる数百万のレポートとその情報源
- Authors: Samuel Barham and Orion Weller and Michelle Yuan and Kenton Murray and
Mahsa Yarmohammadi and Zhengping Jiang and Siddharth Vashishtha and Alexander
Martin and Anqi Liu and Aaron Steven White and Jordan Boyd-Graber and
Benjamin Van Durme
- Abstract要約: MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
- 参考スコア(独自算出の注目度): 74.3909725023673
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To foster the development of new models for collaborative AI-assisted report
generation, we introduce MegaWika, consisting of 13 million Wikipedia articles
in 50 diverse languages, along with their 71 million referenced source
materials. We process this dataset for a myriad of applications, going beyond
the initial Wikipedia citation extraction and web scraping of content,
including translating non-English articles for cross-lingual applications and
providing FrameNet parses for automated semantic analysis. MegaWika is the
largest resource for sentence-level report generation and the only report
generation dataset that is multilingual. We manually analyze the quality of
this resource through a semantically stratified sample. Finally, we provide
baseline results and trained models for crucial steps in automated report
generation: cross-lingual question answering and citation retrieval.
- Abstract(参考訳): 協力的なAI支援レポート生成のための新しいモデルの開発を促進するため、50の言語で1300万のWikipedia記事と7100万の参考資料からなるMegaWikaを紹介した。
我々は、このデータセットを、ウィキペディアの最初の引用抽出とコンテンツのウェブスクレイピングを超えて、多言語アプリケーションのための非英語記事の翻訳や、自動意味分析のためのFrameNetパースなど、無数のアプリケーションのために処理する。
MegaWikaは、文レベルレポート生成のための最大のリソースであり、多言語である唯一のレポート生成データセットである。
我々はこのリソースの質を意味的に階層化されたサンプルを通して手動で分析する。
最後に,自動レポート生成における重要なステップである言語間質問応答と引用検索のためのベースライン結果とトレーニングモデルを提供する。
関連論文リスト
- A New Massive Multilingual Dataset for High-Performance Language Technologies [14.375854322321997]
HPLT言語リソースは、モノリンガルとバイリンガルのコーパスを含む、新しい大規模多言語データセットである。
我々のモノリンガルコレクションは、低から中程度の言語に焦点を合わせ、75言語をカバーし、合計5.6兆のワードトークンがドキュメントレベルで重複している。
私たちの英語中心のパラレルコーパスは、単言語対から派生したもので、18の言語対と、約140億の英語トークンを持つ96万の整列文対をカバーしています。
論文 参考訳(メタデータ) (2024-03-20T22:14:39Z) - XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation
in Low Resource Languages [11.581072296148031]
ウィキペディアのテキスト生成に関する既存の研究は、英語の参照記事が要約されて英語のウィキペディアページを生成する場合にのみ、英語に焦点を当てている。
本稿では,ウィキペディア形式のテキストを生成するために,多言語で書かれた複数の参照記事からテキストを多文書で要約するタスクであるXWikiGenを提案する。
論文 参考訳(メタデータ) (2023-03-22T04:52:43Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。