論文の概要: TEET! Tunisian Dataset for Toxic Speech Detection
- arxiv url: http://arxiv.org/abs/2110.05287v1
- Date: Mon, 11 Oct 2021 14:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:31:56.687547
- Title: TEET! Tunisian Dataset for Toxic Speech Detection
- Title(参考訳): ティー!
有毒音声検出のためのチュニジアデータセット
- Authors: Slim Gharbi, Heger Arfaoui, Hatem Haddad, Mayssa Kchaou
- Abstract要約: チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The complete freedom of expression in social media has its costs especially
in spreading harmful and abusive content that may induce people to act
accordingly. Therefore, the need of detecting automatically such a content
becomes an urgent task that will help and enhance the efficiency in limiting
this toxic spread. Compared to other Arabic dialects which are mostly based on
MSA, the Tunisian dialect is a combination of many other languages like MSA,
Tamazight, Italian and French. Because of its rich language, dealing with NLP
problems can be challenging due to the lack of large annotated datasets. In
this paper we are introducing a new annotated dataset composed of approximately
10k of comments. We provide an in-depth exploration of its vocabulary through
feature engineering approaches as well as the results of the classification
performance of machine learning classifiers like NB and SVM and deep learning
models such as ARBERT, MARBERT and XLM-R.
- Abstract(参考訳): ソーシャルメディアにおける表現の自由の完全性は、特に有害で虐待的なコンテンツの拡散に費用がかかる。
したがって、このようなコンテンツを自動的に検出する必要性は、この有害な拡散を制限するための効率向上に役立つ緊急タスクとなる。
他のアラビア語方言と比較すると、チュニジア方言はMSA、タマジット、イタリア語、フランス語といった他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10万のコメントからなる注釈付きデータセットを提案する。
我々は,NBやSVMなどの機械学習分類器の分類性能とARBERT,MARBERT,XLM-Rといったディープラーニングモデルの分類性能について,特徴工学的アプローチによる語彙の詳細な探索を行う。
関連論文リスト
- On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。
この不足は正確なモデルやデータセットの開発を妨げるため、感情分析やヘイトスピーチ検出といった重要なNLPタスクの実行が困難になる。
このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文 参考訳(メタデータ) (2024-11-26T17:55:37Z) - FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Content-Localization based System for Analyzing Sentiment and Hate
Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf [5.2957928879391]
本稿では,高リソース言語における資源の内容を,低リソースアラビア語方言にローカライズすることを提案する。
我々は、コンテンツローカライゼーションに基づくニューラルマシン翻訳を用いて、レバンタインとガルフの2つの低リソースアラビア語方言に対する感情と憎悪の分類器を開発する。
以上の結果から,同一言語における方言の特異性を考慮し,方言的側面を無視することが,誤解を招く可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T15:37:33Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SOLD: Sinhala Offensive Language Dataset [11.63228876521012]
本稿はスリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラにおける攻撃的な言語識別に取り組む。
SOLDは手動でアノテートされたデータセットで、Twitterから1万の投稿がアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
論文 参考訳(メタデータ) (2022-12-01T20:18:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。