論文の概要: naab: A ready-to-use plug-and-play corpus for Farsi
- arxiv url: http://arxiv.org/abs/2208.13486v1
- Date: Mon, 29 Aug 2022 10:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:38:48.564123
- Title: naab: A ready-to-use plug-and-play corpus for Farsi
- Title(参考訳): naab: Farsi用の準備の整ったプラグ&プレイコーパス
- Authors: Sadra Sabouri, Elnaz Rahmati, Soroush Gooran, Hossein Sameti
- Abstract要約: naabはFarsiで最大のクリーンで使いやすいオープンソーステキストコーパスだ。
約130GBのデータ、2億5000万段落、150億語が含まれている。
プロジェクト名はFarsi の NAAB K に由来する。
- 参考スコア(独自算出の注目度): 0.6021787236982657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Huge corpora of textual data are always known to be a crucial need for
training deep models such as transformer-based ones. This issue is emerging
more in lower resource languages - like Farsi. We propose naab, the biggest
cleaned and ready-to-use open-source textual corpus in Farsi. It contains about
130GB of data, 250 million paragraphs, and 15 billion words. The project name
is derived from the Farsi word NAAB K which means pure and high grade. We also
provide the raw version of the corpus called naab-raw and an easy-to-use
preprocessor that can be employed by those who wanted to make a customized
corpus.
- Abstract(参考訳): テキストデータの巨大なコーパスは、トランスフォーマーベースのモデルのような深層モデルのトレーニングにおいて重要なニーズであることが常に知られている。
この問題は、Farsiのような低リソース言語でより発生しています。
我々はFarsiで最大のクリーンで使いやすいオープンソーステキストコーパスであるnaabを提案する。
約130gbのデータと2億5000万段落、150億語が含まれている。
プロジェクト名は、フルシ語の naab k からきており、これは純粋でハイグレードを意味する。
また、naab-rawと呼ばれるコーパスの生バージョンと、カスタマイズしたコーパスを作成したい人でも使える、使いやすいプリプロセッサも提供しています。
関連論文リスト
- GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - FuLG: 150B Romanian Corpus for Language Model Pretraining [76.09455151754062]
我々は,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。
本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T16:32:48Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - HmBlogs: A big general Persian corpus [0.0]
本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
論文 参考訳(メタデータ) (2021-11-03T17:26:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文 参考訳(メタデータ) (2021-04-25T13:05:29Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages [15.425783311152117]
IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In
これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。
IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-30T20:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。