論文の概要: Exploratory Arabic Offensive Language Dataset Analysis
- arxiv url: http://arxiv.org/abs/2101.11434v1
- Date: Wed, 20 Jan 2021 23:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:46:26.385501
- Title: Exploratory Arabic Offensive Language Dataset Analysis
- Title(参考訳): 探索的アラビア語攻撃言語データセット解析
- Authors: Fatemah Husain and Ozlem Uzuner
- Abstract要約: 本稿では、アラブの攻撃的言語研究で使用されるリソースとデータセットに関する洞察を追加する。
本研究の目的は,アラビア語攻撃言語の研究者が,その内容に基づいて適切なデータセットを選択することにある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper adding more insights towards resources and datasets used in Arabic
offensive language research. The main goal of this paper is to guide
researchers in Arabic offensive language in selecting appropriate datasets
based on their content, and in creating new Arabic offensive language resources
to support and complement the available ones.
- Abstract(参考訳): 本稿では、アラビア語攻撃言語研究で使用されるリソースとデータセットについて、さらに洞察を加える。
本研究の目的は, アラビア語攻撃的言語の研究者が, その内容に基づいて適切なデータセットを選択し, 利用可能なデータセットをサポートし補完するための新しいアラビア語攻撃的言語リソースを作成することにある。
関連論文リスト
- WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。
我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-01-24T14:06:29Z) - A Survey of Large Language Models for Arabic Language and its Dialects [0.0]
本調査では、アラビア語とその方言用に設計されたLarge Language Models(LLM)の概要について概説する。
Encoder-only、decoder-only、encoder-decoderモデルを含む主要なアーキテクチャと、事前トレーニングに使用されるデータセットをカバーしている。
この研究では、下流タスクのアーキテクチャとパフォーマンスを分析し、モノリンガル、バイリンガル、マルチリンガルのLLMについても検討している。
論文 参考訳(メタデータ) (2024-10-26T17:48:20Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Toxic language detection: a systematic review of Arabic datasets [5.945303394300328]
本稿では,オンライン有害言語に着目したアラビア語データセットの包括的調査を行う。
利用可能な54のデータセットとその対応論文を体系的に収集した。
研究コミュニティの利便性のために、分析データセットのリストはGitHubリポジトリに保持されている。
論文 参考訳(メタデータ) (2023-12-12T12:43:01Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。