論文の概要: SOLD: Sinhala Offensive Language Dataset
- arxiv url: http://arxiv.org/abs/2212.00851v1
- Date: Thu, 1 Dec 2022 20:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:38:33.800104
- Title: SOLD: Sinhala Offensive Language Dataset
- Title(参考訳): SOLD: Sinhala攻撃的な言語データセット
- Authors: Tharindu Ranasinghe, Isuri Anuradha, Damith Premasiri, Kanishka Silva,
Hansi Hettiarachchi, Lasitha Uyangodage, Marcos Zampieri
- Abstract要約: 本稿はスリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラにおける攻撃的な言語識別に取り組む。
SOLDは手動でアノテートされたデータセットで、Twitterから1万の投稿がアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
- 参考スコア(独自算出の注目度): 12.454406287184064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread of offensive content online, such as hate speech and
cyber-bullying, is a global phenomenon. This has sparked interest in the
artificial intelligence (AI) and natural language processing (NLP) communities,
motivating the development of various systems trained to detect potentially
harmful content automatically. These systems require annotated datasets to
train the machine learning (ML) models. However, with a few notable exceptions,
most datasets on this topic have dealt with English and a few other
high-resource languages. As a result, the research in offensive language
identification has been limited to these languages. This paper addresses this
gap by tackling offensive language identification in Sinhala, a low-resource
Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce
the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments
on this dataset. SOLD is a manually annotated dataset containing 10,000 posts
from Twitter annotated as offensive and not offensive at both sentence-level
and token-level, improving the explainability of the ML models. SOLD is the
first large publicly available offensive language dataset compiled for Sinhala.
We also introduce SemiSOLD, a larger dataset containing more than 145,000
Sinhala tweets, annotated following a semi-supervised approach.
- Abstract(参考訳): ヘイトスピーチやサイバーいじめなど、ネット上の攻撃的なコンテンツの拡散は、世界的な現象である。
これは人工知能(AI)と自然言語処理(NLP)コミュニティへの関心を喚起し、潜在的に有害なコンテンツを自動的に検出する訓練された様々なシステムの開発を動機付けている。
これらのシステムは、機械学習(ML)モデルをトレーニングするために注釈付きデータセットを必要とする。
しかしながら、注目すべき例外はいくつかあるが、このトピックに関するデータセットのほとんどは、英語や他のいくつかの高リソース言語を扱う。
その結果、攻撃的言語識別の研究はこれらの言語に限られている。
本稿は、スリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラで、攻撃的な言語識別に取り組むことで、このギャップに対処する。
我々は,Sinhala Offensive Language Dataset (SOLD)を紹介し,このデータセットについて複数の実験を行った。
SOLDは手動でアノテートされたデータセットで、Twitterから1万のポストがアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
SOLDは、Sinhala用にコンパイルされた最初の大規模な公開言語データセットである。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Predicting the Type and Target of Offensive Social Media Posts in
Marathi [12.454406287184064]
Marathi Offensive Language データセット v.2.0 や MOLD 2.0 を紹介します。
MOLD 2.0は、Marathi用にコンパイルされた最初の階層型攻撃型言語データセットである。
また、SOLIDで示される半教師付き手法に従って注釈付けされたより大きなデータセットであるSeMOLDについても紹介する。
論文 参考訳(メタデータ) (2022-11-22T20:36:44Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - SOLID: A Large-Scale Semi-Supervised Dataset for Offensive Language
Identification [34.57343857418401]
近年,攻撃的言語識別のための分類法であるOLIDデータセットが提案されている。
本研究では、より原則的な方法でツイートを収集する拡張データセットであるSOLIDを提案する。
SOLIDとOLIDを併用すると、2つの異なるモデルに対するOLIDテストセットにおいて大きな性能向上が得られることを示す。
論文 参考訳(メタデータ) (2020-04-29T20:02:58Z) - Offensive Language Identification in Greek [17.38318315623124]
本稿では,攻撃的言語識別のためのギリシャ初の注釈付きデータセットであるOGTDについて述べる。
OGTDは、Twitterから4,779件の投稿が攻撃的であり、攻撃的ではないという手動の注釈付きデータセットである。
データセットの詳細な説明とともに、このデータに基づいてトレーニングおよびテストされたいくつかの計算モデルを評価する。
論文 参考訳(メタデータ) (2020-03-16T22:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。