論文の概要: naab: A ready-to-use plug-and-play corpus for Farsi
- arxiv url: http://arxiv.org/abs/2208.13486v1
- Date: Mon, 29 Aug 2022 10:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-08-30 13:38:48.564123
- Title: naab: A ready-to-use plug-and-play corpus for Farsi
- Title(参考訳): naab: Farsi用の準備の整ったプラグ&プレイコーパス
- Authors: Sadra Sabouri, Elnaz Rahmati, Soroush Gooran, Hossein Sameti
- Abstract要約: naabはFarsiで最大のクリーンで使いやすいオープンソーステキストコーパスだ。
約130GBのデータ、2億5000万段落、150億語が含まれている。
プロジェクト名はFarsi の NAAB K に由来する。
- 参考スコア(独自算出の注目度): 0.6021787236982657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Huge corpora of textual data are always known to be a crucial need for
training deep models such as transformer-based ones. This issue is emerging
more in lower resource languages - like Farsi. We propose naab, the biggest
cleaned and ready-to-use open-source textual corpus in Farsi. It contains about
130GB of data, 250 million paragraphs, and 15 billion words. The project name
is derived from the Farsi word NAAB K which means pure and high grade. We also
provide the raw version of the corpus called naab-raw and an easy-to-use
preprocessor that can be employed by those who wanted to make a customized
corpus.
- Abstract(参考訳): テキストデータの巨大なコーパスは、トランスフォーマーベースのモデルのような深層モデルのトレーニングにおいて重要なニーズであることが常に知られている。
この問題は、Farsiのような低リソース言語でより発生しています。
我々はFarsiで最大のクリーンで使いやすいオープンソーステキストコーパスであるnaabを提案する。
約130gbのデータと2億5000万段落、150億語が含まれている。
プロジェクト名は、フルシ語の naab k からきており、これは純粋でハイグレードを意味する。
また、naab-rawと呼ばれるコーパスの生バージョンと、カスタマイズしたコーパスを作成したい人でも使える、使いやすいプリプロセッサも提供しています。
関連論文リスト
- Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - FuLG: 150B Romanian Corpus for Language Model Pretraining [76.09455151754062]
我々は,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。
本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T16:32:48Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - High-quality Data-to-Text Generation for Severely Under-Resourced
Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。
LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。
全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文 参考訳(メタデータ) (2024-02-19T16:29:40Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - HmBlogs: A big general Persian corpus [0.0]
本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
論文 参考訳(メタデータ) (2021-11-03T17:26:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文 参考訳(メタデータ) (2021-04-25T13:05:29Z) - Crowdsourcing Parallel Corpus for English-Oromo Neural Machine
Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。
40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文 参考訳(メタデータ) (2021-02-15T13:22:30Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages [15.425783311152117]
IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In
これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。
IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-30T20:21:02Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。