論文の概要: SOLID: A Large-Scale Semi-Supervised Dataset for Offensive Language
Identification
- arxiv url: http://arxiv.org/abs/2004.14454v2
- Date: Fri, 24 Sep 2021 16:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:01:55.100717
- Title: SOLID: A Large-Scale Semi-Supervised Dataset for Offensive Language
Identification
- Title(参考訳): SOLID: 攻撃的言語識別のための大規模半スーパービジョンデータセット
- Authors: Sara Rosenthal, Pepa Atanasova, Georgi Karadzhov, Marcos Zampieri,
Preslav Nakov
- Abstract要約: 近年,攻撃的言語識別のための分類法であるOLIDデータセットが提案されている。
本研究では、より原則的な方法でツイートを収集する拡張データセットであるSOLIDを提案する。
SOLIDとOLIDを併用すると、2つの異なるモデルに対するOLIDテストセットにおいて大きな性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 34.57343857418401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread use of offensive content in social media has led to an
abundance of research in detecting language such as hate speech, cyberbullying,
and cyber-aggression. Recent work presented the OLID dataset, which follows a
taxonomy for offensive language identification that provides meaningful
information for understanding the type and the target of offensive messages.
However, it is limited in size and it might be biased towards offensive
language as it was collected using keywords. In this work, we present SOLID, an
expanded dataset, where the tweets were collected in a more principled manner.
SOLID contains over nine million English tweets labeled in a semi-supervised
fashion. We demonstrate that using SOLID along with OLID yields sizable
performance gains on the OLID test set for two different models, especially for
the lower levels of the taxonomy.
- Abstract(参考訳): ソーシャルメディアにおける攻撃的コンテンツの普及により、ヘイトスピーチ、サイバーいじめ、サイバー攻撃などの言語を検出する研究が盛んに行われている。
最近の研究は、攻撃的メッセージのタイプとターゲットを理解する上で有意義な情報を提供する攻撃的言語識別のための分類法であるOLIDデータセットを提示した。
しかし、サイズは限られており、キーワードを使って収集されたため、攻撃的な言語に偏っている可能性がある。
本稿では,より原則的な方法でツイートを収集する,拡張データセットであるsolidを提案する。
SOLIDには英語のツイートが900万件以上あり、半監督的だ。
SOLIDとOLIDの併用は,2つのモデル,特に分類学の下位レベルにおいて,OLIDテストセットにおいて大きな性能向上をもたらすことを示す。
関連論文リスト
- Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - SOLD: Sinhala Offensive Language Dataset [11.63228876521012]
本稿はスリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラにおける攻撃的な言語識別に取り組む。
SOLDは手動でアノテートされたデータセットで、Twitterから1万の投稿がアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。
また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。
論文 参考訳(メタデータ) (2022-12-01T20:18:21Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Offensive Language Identification in Greek [17.38318315623124]
本稿では,攻撃的言語識別のためのギリシャ初の注釈付きデータセットであるOGTDについて述べる。
OGTDは、Twitterから4,779件の投稿が攻撃的であり、攻撃的ではないという手動の注釈付きデータセットである。
データセットの詳細な説明とともに、このデータに基づいてトレーニングおよびテストされたいくつかの計算モデルを評価する。
論文 参考訳(メタデータ) (2020-03-16T22:47:27Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。