論文の概要: Moroccan Dialect -Darija- Open Dataset
- arxiv url: http://arxiv.org/abs/2103.09687v1
- Date: Sun, 28 Feb 2021 13:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 07:46:42.673968
- Title: Moroccan Dialect -Darija- Open Dataset
- Title(参考訳): モロッコ語 -Darija- Open Dataset
- Authors: Aissam Outchakoucht, Hamza Es-Samaali
- Abstract要約: Darija Openデータセット(DODa)は、モロッコ方言のためのオープンソースプロジェクトです。
DODaは、おそらく自然言語処理のために作られたDarija-English翻訳のための最大のオープンソース共同プロジェクトです。
本稿では,DODaの特徴,その収集方法,およびDarijaに翻訳されたImageNetラベルを用いた画像分類における第1の応用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Darija Open Dataset (DODa) is an open-source project for the Moroccan
dialect. With more than 10,000 entries DODa is arguably the largest open-source
collaborative project for Darija-English translation built for Natural Language
Processing purposes. In fact, besides semantic categorization, DODa also adopts
a syntactic one, presents words under different spellings, offers verb-to-noun
and masculine-to-feminine correspondences, contains the conjugation of hundreds
of verbs in different tenses, and many other subsets to help researchers better
understand and study Moroccan dialect. This data paper presents a description
of DODa, its features, how it was collected, as well as a first application in
Image Classification using ImageNet labels translated to Darija. This
collaborative project is hosted on GitHub platform under MIT's Open-Source
license and aims to be a standard resource for researchers, students, and
anyone who is interested in Moroccan Dialect
- Abstract(参考訳): Darija Open Dataset (DODa) はモロッコ方言のオープンソースプロジェクトである。
1万以上のエントリを持つDODaは、自然言語処理のために作られたDarija- English翻訳のための、おそらく最大のオープンソース共同プロジェクトである。
実際、dodaは意味論的分類の他に、異なる綴りで単語を提示し、動詞と名詞、男性と女性間の対応を提供し、異なるテンスで数百の動詞の結合を含み、研究者がモロッコ方言をよりよく理解し、研究するための多くのサブセットを含んでいる。
本稿では,Darija に翻訳された ImageNet ラベルを用いた画像分類において,DODa の特徴,その収集方法,および最初のアプリケーションについて述べる。
この共同プロジェクトはMITのオープンソースライセンスの下でGitHubプラットフォーム上でホストされており、研究者、学生、モロッコ方言に興味のある人のための標準リソースになることを目指している。
関連論文リスト
- Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between
Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文 参考訳(メタデータ) (2023-03-28T14:02:42Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written
in Latin Script [0.05833117322405446]
我々は、YouTubeコメントのコーパスで生成された単語埋め込みモデルの強力さを利用する。
我々は、マノルムと呼ぶ正規化辞書を構築した。
論文 参考訳(メタデータ) (2022-06-18T10:17:46Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。