論文の概要: Combining Textual Features for the Detection of Hateful and Offensive
Language
- arxiv url: http://arxiv.org/abs/2112.04803v1
- Date: Thu, 9 Dec 2021 09:50:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:49:45.820972
- Title: Combining Textual Features for the Detection of Hateful and Offensive
Language
- Title(参考訳): ヘイトフルおよび攻撃的言語検出のためのテキスト特徴の組み合わせ
- Authors: Sherzod Hakimov and Ralph Ewerth
- Abstract要約: ヘイトフルな投稿や攻撃的な投稿をTwitter上で検出するために、さまざまなテキスト機能を組み合わせて分析する。
ニューラルネットワークアーキテクチャにおける各ビルディングブロックの影響を理解するための詳細な実験評価を行う。
- 参考スコア(独自算出の注目度): 5.064332352040358
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The detection of offensive, hateful and profane language has become a
critical challenge since many users in social networks are exposed to
cyberbullying activities on a daily basis. In this paper, we present an
analysis of combining different textual features for the detection of hateful
or offensive posts on Twitter. We provide a detailed experimental evaluation to
understand the impact of each building block in a neural network architecture.
The proposed architecture is evaluated on the English Subtask 1A: Identifying
Hate, offensive and profane content from the post datasets of HASOC-2021
dataset under the team name TIB-VA. We compared different variants of the
contextual word embeddings combined with the character level embeddings and the
encoding of collected hate terms.
- Abstract(参考訳): ソーシャルネットワークの多くのユーザーが毎日のサイバーいじめ活動に晒されているため、攻撃的で憎しみのある言葉の検出は重大な課題となっている。
本稿では,twitter上で嫌がらせや不快な投稿を検出するために,異なるテキストの特徴を組み合わせた分析を行う。
ニューラルネットワークアーキテクチャにおける各ビルディングブロックの影響を理解するために,詳細な実験評価を行う。
提案アーキテクチャは、英語のSubtask 1A: Identifying Hate, offensive and profane Content from the post datasets of HASOC-2021 dataset under the team name TIB-VA。
文脈的単語埋め込みの異なる変種と文字レベルの埋め込みと、収集されたヘイトワードの符号化を比較した。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Anti-Asian Hate Speech Detection via Data Augmented Semantic Relation
Inference [4.885207279350052]
本稿では,自然言語推論フレームワークにおけるヘイトスピーチ検出を強化するために,感情ハッシュタグを活用する新しい手法を提案する。
我々は,(1)オンライン投稿と感情ハッシュタグ間の意味的関係推論,(2)これらの投稿に対する感情分類の2つのタスクを同時に実行する新しいフレームワークSRICを設計する。
論文 参考訳(メタデータ) (2022-04-14T15:03:35Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - "To Target or Not to Target": Identification and Analysis of Abusive
Text Using Ensemble of Classifiers [18.053219155702465]
ソーシャルメディアプラットフォーム上での虐待的・憎悪的コンテンツを識別・分析するためのアンサンブル学習手法を提案する。
私たちの積み重ねられたアンサンブルは、3つの機械学習モデルで構成されており、言語のさまざまな側面をキャプチャし、不適切な言語に関する多様な一貫性のある洞察を提供する。
論文 参考訳(メタデータ) (2020-06-05T06:59:22Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。