論文の概要: Detecting Abusive Albanian
- arxiv url: http://arxiv.org/abs/2107.13592v1
- Date: Wed, 28 Jul 2021 18:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-31 00:56:04.023447
- Title: Detecting Abusive Albanian
- Title(参考訳): アルバニア人虐待の検知
- Authors: Erida Nurce, Jorgel Keci, Leon Derczynski
- Abstract要約: scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
- 参考スコア(独自算出の注目度): 5.092028049119383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever growing usage of social media in the recent years has had a direct
impact on the increased presence of hate speech and offensive speech in online
platforms. Research on effective detection of such content has mainly focused
on English and a few other widespread languages, while the leftover majority
fail to have the same work put into them and thus cannot benefit from the
steady advancements made in the field. In this paper we present \textsc{Shaj},
an annotated Albanian dataset for hate speech and offensive speech that has
been constructed from user-generated content on various social media platforms.
Its annotation follows the hierarchical schema introduced in OffensEval. The
dataset is tested using three different classification models, the best of
which achieves an F1 score of 0.77 for the identification of offensive
language, 0.64 F1 score for the automatic categorization of offensive types and
lastly, 0.52 F1 score for the offensive language target identification.
- Abstract(参考訳): 近年のソーシャルメディア利用の増加は、オンラインプラットフォームにおけるヘイトスピーチやヘイトスピーチの増加に直接影響を与えている。
このようなコンテンツを効果的に検出する研究は、主に英語や他の広く普及した言語に焦点を当ててきたが、残余の多数派はそれらに同じ作業を組み込むことに失敗し、この分野における安定した進歩の恩恵を受けることができない。
本稿では,様々なソーシャルメディア上でユーザ生成コンテンツから構築されたヘイトスピーチと攻撃的スピーチのための注釈付きアルバニア語データセットである \textsc{shaj} を提案する。
そのアノテーションはOffensEvalで導入された階層スキーマに従っている。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語識別のためのF1スコア0.77、攻撃型自動分類のための0.64F1スコア、攻撃言語ターゲット識別のための0.52F1スコアである。
関連論文リスト
- HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X [0.0]
マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
論文 参考訳(メタデータ) (2024-11-14T06:20:21Z) - Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Ruddit: Norms of Offensiveness for English Reddit Comments [35.83156813452207]
英語のRedditコメントの最初のデータセットを作成します。
本手法は信頼性の高い攻撃性スコアを生成する。
我々は、この新たなデータセット上での攻撃性スコアを予測するために、広く使われているニューラルネットワークの能力を評価する。
論文 参考訳(メタデータ) (2021-06-10T11:27:47Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。