論文の概要: Abusive Language Detection in Heterogeneous Contexts: Dataset Collection
and the Role of Supervised Attention
- arxiv url: http://arxiv.org/abs/2105.11119v1
- Date: Mon, 24 May 2021 06:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 01:44:00.862454
- Title: Abusive Language Detection in Heterogeneous Contexts: Dataset Collection
and the Role of Supervised Attention
- Title(参考訳): 不均一文脈における虐待言語検出:データセット収集と監視注意の役割
- Authors: Hongyu Gong, Alberto Valido, Katherine M. Ingram, Giulia Fanti, Suma
Bhat, Dorothy L. Espelage
- Abstract要約: 乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。
YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。
本稿では,教師付きアテンション機構を用いて乱用コンテンツを検出し,分類するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.597481034467915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abusive language is a massive problem in online social platforms. Existing
abusive language detection techniques are particularly ill-suited to comments
containing heterogeneous abusive language patterns, i.e., both abusive and
non-abusive parts. This is due in part to the lack of datasets that explicitly
annotate heterogeneity in abusive language. We tackle this challenge by
providing an annotated dataset of abusive language in over 11,000 comments from
YouTube. We account for heterogeneity in this dataset by separately annotating
both the comment as a whole and the individual sentences that comprise each
comment. We then propose an algorithm that uses a supervised attention
mechanism to detect and categorize abusive content using multi-task learning.
We empirically demonstrate the challenges of using traditional techniques on
heterogeneous content and the comparative gains in performance of the proposed
approach over state-of-the-art methods.
- Abstract(参考訳): 乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。
既存の乱用言語検出技術は、不均一な乱用言語パターンを含むコメントに特に適していない。
これは、乱用言語における不均一性を明示的に注釈するデータセットの欠如によるものである。
この課題に対処するため、YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。
このデータセットでは、コメント全体と各コメントを構成する個々の文を別々に注釈付けすることで、不均一性を説明できる。
次に,マルチタスク学習を用いた乱用コンテンツの検出と分類に教師付き注意機構を用いたアルゴリズムを提案する。
従来の手法を異種コンテンツに適用することの課題と,最先端手法に対する提案手法の性能比較について実証的な実証を行った。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Enriching Abusive Language Detection with Community Context [0.3708656266586145]
叙述表現の使用は、良心的または活発な権限を与えることができる。
乱用検出のモデルは、これらの表現を軽蔑的で不注意に、疎外されたグループが持つ生産的な会話を検閲するものとして誤分類する。
本稿では,コミュニティの文脈が乱用言語検出における分類結果をどのように改善するかを強調した。
論文 参考訳(メタデータ) (2022-06-16T20:54:02Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Abuse is Contextual, What about NLP? The Role of Context in Abusive
Language Annotation and Detection [2.793095554369281]
我々は、メッセージの憎しみのあるコンテンツが文脈に基づいて判断されたときに何が起こるかを調べる。
英語における乱用言語検出のための広範に使用されるデータセットの一部を,まず2つの条件で再注釈した。
文脈を伴わない。
論文 参考訳(メタデータ) (2021-03-27T14:31:52Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - "To Target or Not to Target": Identification and Analysis of Abusive
Text Using Ensemble of Classifiers [18.053219155702465]
ソーシャルメディアプラットフォーム上での虐待的・憎悪的コンテンツを識別・分析するためのアンサンブル学習手法を提案する。
私たちの積み重ねられたアンサンブルは、3つの機械学習モデルで構成されており、言語のさまざまな側面をキャプチャし、不適切な言語に関する多様な一貫性のある洞察を提供する。
論文 参考訳(メタデータ) (2020-06-05T06:59:22Z) - Joint Modelling of Emotion and Abusive Language Detection [26.18171134454037]
マルチタスク学習フレームワークを用いて,感情と虐待的言語検出の最初のジョイントモデルを提案する。
その結果、感情的特徴を取り入れることで、データセット間での悪用検出性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-05-28T14:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。