Fugu-MT 論文翻訳(概要): An open access NLP dataset for Arabic dialects : Data collection, labeling, and model construction

論文の概要: An open access NLP dataset for Arabic dialects : Data collection, labeling, and model construction

arxiv url: http://arxiv.org/abs/2102.11000v1
Date: Sun, 7 Feb 2021 01:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-06 06:29:54.525190
Title: An open access NLP dataset for Arabic dialects : Data collection, labeling, and model construction
Title（参考訳）: アラビア方言のためのオープンアクセスNLPデータセット : データ収集,ラベル付け,モデル構築
Authors: ElMehdi Boujou, Hamza Chataoui, Abdellah El Mekki, Saad Benjelloun, Ikram Chairi, and Ismail Berrada
Abstract要約: いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
参考スコア（独自算出の注目度）: 0.8312466807725921
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural Language Processing (NLP) is today a very active field of research and innovation. Many applications need however big sets of data for supervised learning, suitably labelled for the training purpose. This includes applications for the Arabic language and its national dialects. However, such open access labeled data sets in Arabic and its dialects are lacking in the Data Science ecosystem and this lack can be a burden to innovation and research in this field. In this work, we present an open data set of social data content in several Arabic dialects. This data was collected from the Twitter social network and consists on +50K twits in five (5) national dialects. Furthermore, this data was labeled for several applications, namely dialect detection, topic detection and sentiment analysis. We publish this data as an open access data to encourage innovation and encourage other works in the field of NLP for Arabic dialects and social media. A selection of models were built using this data set and are presented in this paper along with their performances.
Abstract（参考訳）: 自然言語処理(NLP)は現在、研究とイノベーションの非常に活発な分野である。しかし、多くのアプリケーションは教師あり学習のために大量のデータを必要とする。これにはアラビア語とその方言の応用が含まれる。しかし、このようなアラビア語とその方言のオープンアクセスラベル付きデータセットは、データサイエンスのエコシステムにおいて不足しており、この分野におけるイノベーションと研究の負担となっている。本研究では,いくつかのアラビア方言におけるソーシャルデータコンテンツのオープンデータセットについて述べる。このデータはtwitterのソーシャルネットワークから収集され、5つの5つの国語で+50kのtwitsで構成されている。さらに、このデータは方言検出、話題検出、感情分析などいくつかの応用でラベル付けされた。このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。このデータセットを用いてモデルの選択を行い、その性能とともに本論文で提示する。

関連論文リスト

ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics [0.6323908398583084]
4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介する。このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。 16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルを含み、アノテータ間の実質的な合意を達成している。
論文参考訳（メタデータ） (2026-02-14T19:58:53Z)
Amplify Initiative: Building A Localized Data Platform for Globalized AI [3.045104054104307]
現在のAIモデルは、トレーニングデータに英語と西洋のインターネットコンテンツが優勢であることを考えると、しばしばローカルコンテキストと言語を説明できない。データプラットフォームと方法論であるAmplify Initiativeは、専門家コミュニティを活用して、さまざまな高品質なデータを収集し、これらのモデルの限界に対処する。このプラットフォームは、データセットの共同作成を可能にし、高品質な多言語データセットへのアクセスを提供し、データ作者に認識を提供するように設計されている。
論文参考訳（メタデータ） (2025-04-18T23:20:52Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文参考訳（メタデータ） (2023-09-22T11:33:03Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。この制限を克服するため、公開リソースから専用のデータセットを作成します。言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文参考訳（メタデータ） (2023-07-27T07:40:11Z)
Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati [1.666378501554705]
南アフリカの言語は低資源言語に分類される。この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
論文参考訳（メタデータ） (2023-06-12T21:02:12Z)
An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文参考訳（メタデータ） (2021-03-10T16:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。