論文の概要: Toxic language detection: a systematic review of Arabic datasets
- arxiv url: http://arxiv.org/abs/2312.07228v2
- Date: Mon, 29 Jan 2024 21:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:30:18.034885
- Title: Toxic language detection: a systematic review of Arabic datasets
- Title(参考訳): 有害言語検出:アラビア語データセットの体系的レビュー
- Authors: Imene Bensalem, Paolo Rosso, Hanane Zitouni
- Abstract要約: 本稿では,オンライン有害言語に着目したアラビア語データセットの包括的調査を行う。
利用可能な54のデータセットとその対応論文を体系的に収集した。
研究コミュニティの利便性のために、分析データセットのリストはGitHubリポジトリに保持されている。
- 参考スコア(独自算出の注目度): 5.945303394300328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection of toxic language in the Arabic language has emerged as an
active area of research in recent years, and reviewing the existing datasets
employed for training the developed solutions has become a pressing need. This
paper offers a comprehensive survey of Arabic datasets focused on online toxic
language. We systematically gathered a total of 54 available datasets and their
corresponding papers and conducted a thorough analysis, considering 18 criteria
across four primary dimensions: availability details, content, annotation
process, and reusability. This analysis enabled us to identify existing gaps
and make recommendations for future research works. For the convenience of the
research community, the list of the analysed datasets is maintained in a GitHub
repository (https://github.com/Imene1/Arabic-toxic-language).
- Abstract(参考訳): 近年、アラビア語における有毒な言語の検出は活発な研究分野として現れており、開発ソリューションの訓練に使用されている既存のデータセットのレビューが求められている。
本稿では,オンライン有毒言語に着目したアラビア語データセットの包括的調査を行う。
我々は,54の利用可能なデータセットとその対応論文を体系的に収集し,アベイラビリティの詳細,内容,アノテーション処理,再利用性という4つの主要な側面の18の基準を考慮し,徹底的な分析を行った。
この分析により,既存のギャップを特定し,今後の研究成果の推薦を行うことができた。
研究コミュニティの便宜のために、分析されたデータセットのリストはgithubリポジトリ(https://github.com/imene1/arabic-toxic-language)に保存されている。
関連論文リスト
- A Study on Scaling Up Multilingual News Framing Analysis [23.80807884935475]
本研究では,クラウドソーシングによるデータセット生成の可能性を検討する。
まず、英語ニュース以外のフレーミング分析を多言語文脈に拡張する。
また、ベンガルとポルトガルの移民と同性結婚に関する新しい基準も提示する。
論文 参考訳(メタデータ) (2024-04-01T21:02:18Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - Exploratory Arabic Offensive Language Dataset Analysis [0.0]
本稿では、アラブの攻撃的言語研究で使用されるリソースとデータセットに関する洞察を追加する。
本研究の目的は,アラビア語攻撃言語の研究者が,その内容に基づいて適切なデータセットを選択することにある。
論文 参考訳(メタデータ) (2021-01-20T23:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。