論文の概要: Exploratory Arabic Offensive Language Dataset Analysis
- arxiv url: http://arxiv.org/abs/2101.11434v1
- Date: Wed, 20 Jan 2021 23:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:46:26.385501
- Title: Exploratory Arabic Offensive Language Dataset Analysis
- Title(参考訳): 探索的アラビア語攻撃言語データセット解析
- Authors: Fatemah Husain and Ozlem Uzuner
- Abstract要約: 本稿では、アラブの攻撃的言語研究で使用されるリソースとデータセットに関する洞察を追加する。
本研究の目的は,アラビア語攻撃言語の研究者が,その内容に基づいて適切なデータセットを選択することにある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper adding more insights towards resources and datasets used in Arabic
offensive language research. The main goal of this paper is to guide
researchers in Arabic offensive language in selecting appropriate datasets
based on their content, and in creating new Arabic offensive language resources
to support and complement the available ones.
- Abstract(参考訳): 本稿では、アラビア語攻撃言語研究で使用されるリソースとデータセットについて、さらに洞察を加える。
本研究の目的は, アラビア語攻撃的言語の研究者が, その内容に基づいて適切なデータセットを選択し, 利用可能なデータセットをサポートし補完するための新しいアラビア語攻撃的言語リソースを作成することにある。
関連論文リスト
- Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Toxic language detection: a systematic review of Arabic datasets [5.945303394300328]
本稿では,オンライン有害言語に着目したアラビア語データセットの包括的調査を行う。
利用可能な54のデータセットとその対応論文を体系的に収集した。
研究コミュニティの利便性のために、分析データセットのリストはGitHubリポジトリに保持されている。
論文 参考訳(メタデータ) (2023-12-12T12:43:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Resources for Turkish Natural Language Processing: A critical survey [0.0]
我々は、公開されているリソースを中心に、幅広いリソースをレビューする。
本稿では,トルコ語と自然言語処理における研究・構築のために利用可能なデータのギャップを,一連のレコメンデーションと識別する。
論文 参考訳(メタデータ) (2022-04-11T12:23:07Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z) - A Benchmark Arabic Dataset for Commonsense Explanation [0.6091702876917281]
本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットはアラビア語の文で構成されており、その文がなぜ間違っているのかを説明する3つの選択肢があります。
論文 参考訳(メタデータ) (2020-12-18T14:07:10Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。