論文の概要: esCorpius: A Massive Spanish Crawling Corpus
- arxiv url: http://arxiv.org/abs/2206.15147v2
- Date: Fri, 1 Jul 2022 08:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 10:51:22.422883
- Title: esCorpius: A Massive Spanish Crawling Corpus
- Title(参考訳): エスコルピウス:スペインの巨大クローリングコーパス
- Authors: Asier Guti\'errez-Fandi\~no, David P\'erez-Fern\'andez, Jordi
Armengol-Estap\'e, David Griol, Zoraida Callejas
- Abstract要約: esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
- 参考スコア(独自算出の注目度): 2.262838186547612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent years, transformer-based models have lead to significant
advances in language modelling for natural language processing. However, they
require a vast amount of data to be (pre-)trained and there is a lack of
corpora in languages other than English. Recently, several initiatives have
presented multilingual datasets obtained from automatic web crawling. However,
the results in Spanish present important shortcomings, as they are either too
small in comparison with other languages, or present a low quality derived from
sub-optimal cleaning and deduplication. In this paper, we introduce esCorpius,
a Spanish crawling corpus obtained from near 1 Pb of Common Crawl data. It is
the most extensive corpus in Spanish with this level of quality in the
extraction, purification and deduplication of web textual content. Our data
curation process involves a novel highly parallel cleaning pipeline and
encompasses a series of deduplication mechanisms that together ensure the
integrity of both document and paragraph boundaries. Additionally, we maintain
both the source web page URL and the WARC shard origin URL in order to complain
with EU regulations. esCorpius has been released under CC BY-NC-ND 4.0 license
and is available on HuggingFace.
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルは自然言語処理のための言語モデリングの大幅な進歩をもたらしている。
しかし、それらは(事前)訓練される大量のデータを必要としており、英語以外の言語にはコーパスがない。
近年,自動webクローリングから得られる多言語データセットが提案されている。
しかし、スペイン語の結果は、他の言語と比較して小さすぎるか、あるいは準最適クリーニングと重複による低い品質を示すため、重要な欠点を呈している。
本稿では,コモンクローリングデータの約1Pbから得られたスペインのクローリングコーパスであるesCorpiusを紹介する。
スペイン語で最も広範なコーパスであり、webテキストコンテンツの抽出、精製、複製においてこのレベルの品質を有する。
私たちのデータキュレーションプロセスは、新しい高度並列なクリーニングパイプラインを含み、ドキュメントと段落の境界の整合性を保証する一連の重複機構を包含しています。
さらに、euの規制に不満を抱くために、source web page url と warc shard origin url の両方を維持している。
esCorpiusはCC BY-NC-ND 4.0ライセンスでリリースされ、HuggingFaceで入手できる。
関連論文リスト
- Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。
提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文 参考訳(メタデータ) (2024-10-01T08:53:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Towards a Cleaner Document-Oriented Multilingual Crawled Corpus [2.1028463367241033]
本稿では、既存の多言語WebコーパスOSCARとそのパイプラインUngoliantを取り上げ、行レベルでCommon Crawlからデータを抽出し分類する。
そこで本稿では,OSCARの文書指向バージョンを生成するための改良と自動アノテーションを提案する。
論文 参考訳(メタデータ) (2022-01-17T22:12:59Z) - Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish
Biomedical Language Models [0.05277024349608833]
CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。
コーパスは公開されており、すでに前処理されている。
CoWeSeはスペイン語のバイオメディカルおよび健康NLPにとって重要な資源である。
論文 参考訳(メタデータ) (2021-09-16T07:22:28Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。