論文の概要: Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish
Biomedical Language Models
- arxiv url: http://arxiv.org/abs/2109.07765v1
- Date: Thu, 16 Sep 2021 07:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 00:44:56.199502
- Title: Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish
Biomedical Language Models
- Title(参考訳): スペインのバイオメディカルクロールコーパス:スペインのバイオメディカル言語モデルのための大規模で多様なデータセット
- Authors: Casimiro Pio Carrino, Jordi Armengol-Estap\'e, Ona de Gibert Bonet,
Asier Guti\'errez-Fandi\~no, Aitor Gonzalez-Agirre, Martin Krallinger, Marta
Villegas
- Abstract要約: CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。
コーパスは公開されており、すでに前処理されている。
CoWeSeはスペイン語のバイオメディカルおよび健康NLPにとって重要な資源である。
- 参考スコア(独自算出の注目度): 0.05277024349608833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CoWeSe (the Corpus Web Salud Espa\~nol), the largest Spanish
biomedical corpus to date, consisting of 4.5GB (about 750M tokens) of clean
plain text. CoWeSe is the result of a massive crawler on 3000 Spanish domains
executed in 2020. The corpus is openly available and already preprocessed.
CoWeSe is an important resource for biomedical and health NLP in Spanish and
has already been employed to train domain-specific language models and to
produce word embbedings. We released the CoWeSe corpus under a Creative Commons
Attribution 4.0 International license, both in Zenodo
(\url{https://zenodo.org/record/4561971\#.YTI5SnVKiEA}).
- Abstract(参考訳): スペイン最大の生物医学コーパスであるcowese (the corpus web salud espa\~nol) を紹介する。
CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。
コーパスは公開されており、すでに前処理されている。
CoWeSeはスペイン語のバイオメディカルおよび健康的なNLPにとって重要なリソースであり、すでにドメイン固有の言語モデルのトレーニングや単語の組込みに使われている。
我々はCoWeSeコーパスをCreative Commons Attribution 4.0国際ライセンスでリリースし、どちらもZenodo (\url{https://zenodo.org/record/456 1971\#)でリリースしました。
yti5snvkiea)。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。
包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-04-11T10:01:32Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Multilingual Open Text 1.0: Public Domain News in 44 Languages [2.642698101441705]
コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
論文 参考訳(メタデータ) (2022-01-14T18:58:17Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines [4.370297546680015]
GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。
GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。
既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T14:25:49Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。