論文の概要: Exploratory Arabic Offensive Language Dataset Analysis
- arxiv url: http://arxiv.org/abs/2101.11434v1
- Date: Wed, 20 Jan 2021 23:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:46:26.385501
- Title: Exploratory Arabic Offensive Language Dataset Analysis
- Title(参考訳): 探索的アラビア語攻撃言語データセット解析
- Authors: Fatemah Husain and Ozlem Uzuner
- Abstract要約: 本稿では、アラブの攻撃的言語研究で使用されるリソースとデータセットに関する洞察を追加する。
本研究の目的は,アラビア語攻撃言語の研究者が,その内容に基づいて適切なデータセットを選択することにある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper adding more insights towards resources and datasets used in Arabic
offensive language research. The main goal of this paper is to guide
researchers in Arabic offensive language in selecting appropriate datasets
based on their content, and in creating new Arabic offensive language resources
to support and complement the available ones.
- Abstract(参考訳): 本稿では、アラビア語攻撃言語研究で使用されるリソースとデータセットについて、さらに洞察を加える。
本研究の目的は, アラビア語攻撃的言語の研究者が, その内容に基づいて適切なデータセットを選択し, 利用可能なデータセットをサポートし補完するための新しいアラビア語攻撃的言語リソースを作成することにある。
関連論文リスト
- A Survey of Large Language Models for Arabic Language and its Dialects [0.0]
本調査では、アラビア語とその方言用に設計されたLarge Language Models(LLM)の概要について概説する。
Encoder-only、decoder-only、encoder-decoderモデルを含む主要なアーキテクチャと、事前トレーニングに使用されるデータセットをカバーしている。
この研究では、下流タスクのアーキテクチャとパフォーマンスを分析し、モノリンガル、バイリンガル、マルチリンガルのLLMについても検討している。
論文 参考訳(メタデータ) (2024-10-26T17:48:20Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [4.189204855014775]
中央アジアのトルコ語に対するNLPの研究は、典型的に低リソースの言語課題に直面している。
最近の進歩には、言語固有のデータセットの収集や、下流タスクのためのモデルの開発が含まれる。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Toxic language detection: a systematic review of Arabic datasets [5.945303394300328]
本稿では,オンライン有害言語に着目したアラビア語データセットの包括的調査を行う。
利用可能な54のデータセットとその対応論文を体系的に収集した。
研究コミュニティの利便性のために、分析データセットのリストはGitHubリポジトリに保持されている。
論文 参考訳(メタデータ) (2023-12-12T12:43:01Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。