論文の概要: Moroccan Dialect -Darija- Open Dataset
- arxiv url: http://arxiv.org/abs/2103.09687v1
- Date: Sun, 28 Feb 2021 13:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 07:46:42.673968
- Title: Moroccan Dialect -Darija- Open Dataset
- Title(参考訳): モロッコ語 -Darija- Open Dataset
- Authors: Aissam Outchakoucht, Hamza Es-Samaali
- Abstract要約: Darija Openデータセット(DODa)は、モロッコ方言のためのオープンソースプロジェクトです。
DODaは、おそらく自然言語処理のために作られたDarija-English翻訳のための最大のオープンソース共同プロジェクトです。
本稿では,DODaの特徴,その収集方法,およびDarijaに翻訳されたImageNetラベルを用いた画像分類における第1の応用について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Darija Open Dataset (DODa) is an open-source project for the Moroccan
dialect. With more than 10,000 entries DODa is arguably the largest open-source
collaborative project for Darija-English translation built for Natural Language
Processing purposes. In fact, besides semantic categorization, DODa also adopts
a syntactic one, presents words under different spellings, offers verb-to-noun
and masculine-to-feminine correspondences, contains the conjugation of hundreds
of verbs in different tenses, and many other subsets to help researchers better
understand and study Moroccan dialect. This data paper presents a description
of DODa, its features, how it was collected, as well as a first application in
Image Classification using ImageNet labels translated to Darija. This
collaborative project is hosted on GitHub platform under MIT's Open-Source
license and aims to be a standard resource for researchers, students, and
anyone who is interested in Moroccan Dialect
- Abstract(参考訳): Darija Open Dataset (DODa) はモロッコ方言のオープンソースプロジェクトである。
1万以上のエントリを持つDODaは、自然言語処理のために作られたDarija- English翻訳のための、おそらく最大のオープンソース共同プロジェクトである。
実際、dodaは意味論的分類の他に、異なる綴りで単語を提示し、動詞と名詞、男性と女性間の対応を提供し、異なるテンスで数百の動詞の結合を含み、研究者がモロッコ方言をよりよく理解し、研究するための多くのサブセットを含んでいる。
本稿では,Darija に翻訳された ImageNet ラベルを用いた画像分類において,DODa の特徴,その収集方法,および最初のアプリケーションについて述べる。
この共同プロジェクトはMITのオープンソースライセンスの下でGitHubプラットフォーム上でホストされており、研究者、学生、モロッコ方言に興味のある人のための標準リソースになることを目指している。
関連論文リスト
- Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。
データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文 参考訳(メタデータ) (2024-09-26T14:56:38Z) - DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers [5.274804664403783]
言語多様性の複雑さをナビゲートすることは、堅牢な自然言語処理システムの開発における中心的な課題である。
本稿では,銀行分野における意図分類の強化を目的とした新しいDarijaデータセットであるtextbfDarijaBankingを紹介する。
DarijaBankingは、Darija、Modern Standard Arabic (MSA)、英語、フランス語で1,800以上の並列な高品質なクエリで構成されており、24のインテントクラスで構成されている。
論文 参考訳(メタデータ) (2024-05-26T08:33:28Z) - The Evolution of Darija Open Dataset: Introducing Version 2 [0.0]
DODaは、Darija-English翻訳における、同種のコラボレーションプロジェクトとしては最大である。
本稿では,DODAの戦略的重要性,その業績,今後の発展について考察する。
論文 参考訳(メタデータ) (2024-05-14T15:08:32Z) - Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。
クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。
本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-04T12:27:32Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文 参考訳(メタデータ) (2023-03-28T14:02:42Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。