論文の概要: The Evolution of Darija Open Dataset: Introducing Version 2
- arxiv url: http://arxiv.org/abs/2405.13016v1
- Date: Tue, 14 May 2024 15:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:58:21.270661
- Title: The Evolution of Darija Open Dataset: Introducing Version 2
- Title(参考訳): Darija Open Datasetの進化 - バージョン2の紹介
- Authors: Aissam Outchakoucht, Hamza Es-Samaali,
- Abstract要約: DODaは、Darija-English翻訳における、同種のコラボレーションプロジェクトとしては最大である。
本稿では,DODAの戦略的重要性,その業績,今後の発展について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Darija Open Dataset (DODa) represents an open-source project aimed at enhancing Natural Language Processing capabilities for the Moroccan dialect, Darija. With approximately 100,000 entries, DODa stands as the largest collaborative project of its kind for Darija-English translation. The dataset features semantic and syntactic categorizations, variations in spelling, verb conjugations across multiple tenses, as well as tens of thousands of translated sentences. The dataset includes entries written in both Latin and Arabic alphabets, reflecting the linguistic variations and preferences found in different sources and applications. The availability of such dataset is critical for developing applications that can accurately understand and generate Darija, thus supporting the linguistic needs of the Moroccan community and potentially extending to similar dialects in neighboring regions. This paper explores the strategic importance of DODa, its current achievements, and the envisioned future enhancements that will continue to promote its use and expansion in the global NLP landscape.
- Abstract(参考訳): Darija Open Dataset(DODA)は、モロッコの方言であるDarijaの自然言語処理能力を向上するためのオープンソースプロジェクトである。
約10万のエントリがあるDODAは、Darija- English翻訳のための最大の共同プロジェクトである。
データセットにはセマンティックな分類と構文的な分類、綴りのバリエーション、複数の時制にまたがる動詞の活用、数万の翻訳文がある。
データセットにはラテン文字とアラビア文字の両方で書かれたエントリが含まれており、異なるソースやアプリケーションで見られる言語的なバリエーションと好みを反映している。
このようなデータセットの可用性は、Darijaを正確に理解し、生成できるアプリケーションを開発するために重要であり、モロッコのコミュニティの言語的ニーズをサポートし、近隣地域の同様の方言に拡張する可能性がある。
本稿では,グローバルなNLP景観におけるDODAの戦略的重要性,その成果,そしてその活用と拡張を推進していくであろう今後の発展について考察する。
関連論文リスト
- Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。
データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文 参考訳(メタデータ) (2024-09-26T14:56:38Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Moroccan Dialect -Darija- Open Dataset [0.0]
Darija Openデータセット(DODa)は、モロッコ方言のためのオープンソースプロジェクトです。
DODaは、おそらく自然言語処理のために作られたDarija-English翻訳のための最大のオープンソース共同プロジェクトです。
本稿では,DODaの特徴,その収集方法,およびDarijaに翻訳されたImageNetラベルを用いた画像分類における第1の応用について述べる。
論文 参考訳(メタデータ) (2021-02-28T13:37:59Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。