論文の概要: naab: A ready-to-use plug-and-play corpus for Farsi
- arxiv url: http://arxiv.org/abs/2208.13486v2
- Date: Mon, 23 Dec 2024 07:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:09.907628
- Title: naab: A ready-to-use plug-and-play corpus for Farsi
- Title(参考訳): naab: Farsi用の準備の整ったプラグ&プレイコーパス
- Authors: Sadra Sabouri, Elnaz Rahmati, Soroush Gooran, Hossein Sameti,
- Abstract要約: naabは、最も公開されており、クリーンで、使えるFarsiテキストコーパスである。
Naabは130GBのデータで、2億5000万の段落と150億の単語で構成されている。
Naab-rawは、前処理ツールキットとともに、データセットの未処理バージョンである。
- 参考スコア(独自算出の注目度): 1.381198851698147
- License:
- Abstract: The rise of large language models (LLMs) has transformed numerous natural language processing (NLP) tasks, yet their performance in low and mid-resource languages, such as Farsi, still lags behind resource-rich languages like English. To address this gap, we introduce naab, the largest publicly available, cleaned, and ready-to-use Farsi textual corpus. naab consists of 130GB of data, comprising over 250 million paragraphs and 15 billion words. Named after the Farsi word NAAB (meaning "pure" or "high-grade"), this corpus is openly accessible via Hugging Face, offering researchers a valuable resource for Farsi NLP tasks. In addition to naab, we provide naab-raw, an unprocessed version of the dataset, along with a pre-processing toolkit that allows users to clean their custom corpora. These resources empower NLP researchers and practitioners, particularly those focusing on low-resource languages, to improve the performance of LLMs in their respective domains and bridge the gap between resource-rich and resource-poor languages.
- Abstract(参考訳): 大きな言語モデル(LLM)の台頭は、多くの自然言語処理(NLP)タスクに変化をもたらしたが、Farsiのような低リソース言語や中オープンソースの言語のパフォーマンスは、まだ英語のようなリソース豊富な言語に遅れを取っている。
このギャップに対処するために、私たちは最も公開されており、クリーンで、使えるFarsiテキストコーパスであるnaabを紹介します。
naabは130GBのデータで 2億5000万の段落と150億の単語で構成されています
このコーパスは、FarsiのNAAB("pure"または"high-grade")にちなむもので、Hugging Faceを通じて公開されており、研究者がFarsi NLPタスクに有用なリソースを提供する。
naabに加えて、データセットの未処理バージョンであるnaab-rawと、ユーザが独自のコーパスをクリーンにするための前処理ツールキットも提供しています。
これらのリソースは、NLP研究者や実践者、特に低リソース言語に焦点を当てた者たちに、それぞれの領域におけるLLMのパフォーマンスを改善し、リソース豊富な言語とリソース不足言語のギャップを埋める力を与えます。
関連論文リスト
- GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - FuLG: 150B Romanian Corpus for Language Model Pretraining [76.09455151754062]
我々は,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。
本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T16:32:48Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - HmBlogs: A big general Persian corpus [0.0]
本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
論文 参考訳(メタデータ) (2021-11-03T17:26:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文 参考訳(メタデータ) (2021-04-25T13:05:29Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages [15.425783311152117]
IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In
これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。
IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-30T20:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。