Fugu-MT 論文翻訳(概要): Moroccan Dialect -Darija- Open Dataset

論文の概要: Moroccan Dialect -Darija- Open Dataset

arxiv url: http://arxiv.org/abs/2103.09687v1
Date: Sun, 28 Feb 2021 13:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 07:46:42.673968
Title: Moroccan Dialect -Darija- Open Dataset
Title（参考訳）: モロッコ語 -Darija- Open Dataset
Authors: Aissam Outchakoucht, Hamza Es-Samaali
Abstract要約: Darija Openデータセット(DODa)は、モロッコ方言のためのオープンソースプロジェクトです。 DODaは、おそらく自然言語処理のために作られたDarija-English翻訳のための最大のオープンソース共同プロジェクトです。本稿では,DODaの特徴,その収集方法,およびDarijaに翻訳されたImageNetラベルを用いた画像分類における第1の応用について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Darija Open Dataset (DODa) is an open-source project for the Moroccan dialect. With more than 10,000 entries DODa is arguably the largest open-source collaborative project for Darija-English translation built for Natural Language Processing purposes. In fact, besides semantic categorization, DODa also adopts a syntactic one, presents words under different spellings, offers verb-to-noun and masculine-to-feminine correspondences, contains the conjugation of hundreds of verbs in different tenses, and many other subsets to help researchers better understand and study Moroccan dialect. This data paper presents a description of DODa, its features, how it was collected, as well as a first application in Image Classification using ImageNet labels translated to Darija. This collaborative project is hosted on GitHub platform under MIT's Open-Source license and aims to be a standard resource for researchers, students, and anyone who is interested in Moroccan Dialect
Abstract（参考訳）: Darija Open Dataset (DODa) はモロッコ方言のオープンソースプロジェクトである。 1万以上のエントリを持つDODaは、自然言語処理のために作られたDarija- English翻訳のための、おそらく最大のオープンソース共同プロジェクトである。実際、dodaは意味論的分類の他に、異なる綴りで単語を提示し、動詞と名詞、男性と女性間の対応を提供し、異なるテンスで数百の動詞の結合を含み、研究者がモロッコ方言をよりよく理解し、研究するための多くのサブセットを含んでいる。本稿では,Darija に翻訳された ImageNet ラベルを用いた画像分類において,DODa の特徴,その収集方法,および最初のアプリケーションについて述べる。この共同プロジェクトはMITのオープンソースライセンスの下でGitHubプラットフォーム上でホストされており、研究者、学生、モロッコ方言に興味のある人のための標準リソースになることを目指している。

関連論文リスト

Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文参考訳（メタデータ） (2024-12-09T22:47:41Z)
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文参考訳（メタデータ） (2024-09-26T14:56:38Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。 mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。 163言語、303M文書、200Bトークン、1.15B画像を含む。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers [5.274804664403783]
言語多様性の複雑さをナビゲートすることは、堅牢な自然言語処理システムの開発における中心的な課題である。本稿では,銀行分野における意図分類の強化を目的とした新しいDarijaデータセットであるtextbfDarijaBankingを紹介する。 DarijaBankingは、Darija、Modern Standard Arabic (MSA)、英語、フランス語で1,800以上の並列な高品質なクエリで構成されており、24のインテントクラスで構成されている。
論文参考訳（メタデータ） (2024-05-26T08:33:28Z)
The Evolution of Darija Open Dataset: Introducing Version 2 [0.0]
DODaは、Darija-English翻訳における、同種のコラボレーションプロジェクトとしては最大である。本稿では,DODAの戦略的重要性,その業績,今後の発展について考察する。
論文参考訳（メタデータ） (2024-05-14T15:08:32Z)
Language and Speech Technology for Central Kurdish Varieties [27.751434601712]
3000万人以上の話者が話すインド・ヨーロッパ語であるクルド語は、方言の連続語であると考えられている。クルド語のための言語と音声技術に対処する以前の研究は、マクロ言語としてモノリシックな方法でそれを扱う。本稿では,中央クルド語多種多様な言語・音声技術のための資源開発への一歩を踏み出した。
論文参考訳（メタデータ） (2024-03-04T12:27:32Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
MegaWika: Millions of reports and their sources across 50 diverse languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。 MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文参考訳（メタデータ） (2023-07-13T20:04:02Z)
Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文参考訳（メタデータ） (2023-03-28T14:02:42Z)
Transformer-based Model for Word Level Language Identification in Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。 The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文参考訳（メタデータ） (2022-11-26T02:39:19Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。