論文の概要: Offensive Language Detection: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2001.03131v1
- Date: Thu, 9 Jan 2020 17:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:47:57.270382
- Title: Offensive Language Detection: A Comparative Analysis
- Title(参考訳): 攻撃的言語検出:比較分析
- Authors: Vyshnav M T, Sachin Kumar S, Soman K P
- Abstract要約: 本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
- 参考スコア(独自算出の注目度): 2.5739449801033842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offensive behaviour has become pervasive in the Internet community.
Individuals take the advantage of anonymity in the cyber world and indulge in
offensive communications which they may not consider in the real life.
Governments, online communities, companies etc are investing into prevention of
offensive behaviour content in social media. One of the most effective solution
for tacking this enigmatic problem is the use of computational techniques to
identify offensive content and take action. The current work focuses on
detecting offensive language in English tweets. The dataset used for the
experiment is obtained from SemEval-2019 Task 6 on Identifying and Categorizing
Offensive Language in Social Media (OffensEval). The dataset contains 14,460
annotated English tweets. The present paper provides a comparative analysis and
Random kitchen sink (RKS) based approach for offensive language detection. We
explore the effectiveness of Google sentence encoder, Fasttext, Dynamic mode
decomposition (DMD) based features and Random kitchen sink (RKS) method for
offensive language detection. From the experiments and evaluation we observed
that RKS with fastetxt achieved competing results. The evaluation measures used
are accuracy, precision, recall, f1-score.
- Abstract(参考訳): インターネットコミュニティでは攻撃行動が広まりつつある。
個人はサイバーの世界における匿名性を生かし、実生活では考慮されないような攻撃的なコミュニケーションに没頭する。
政府やオンラインコミュニティ、企業などは、ソーシャルメディアにおける攻撃的行動コンテンツ防止に投資している。
この謎めいた問題に取り組むための最も効果的な解決策の1つは、攻撃的コンテンツを特定し行動を起こすために計算技術を使うことである。
現在の研究は、英語のツイートにおける攻撃的言語の検出に焦点を当てている。
実験に用いるデータセットは、ソーシャルメディア(OffensEval)における攻撃言語を識別・分類するSemEval-2019 Task 6から得られる。
データセットには14,460の英語ツイートが含まれている。
本稿では, 比較分析とランダムキッチンシンク(rks)に基づく攻撃言語検出手法を提案する。
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
評価基準は精度、精度、リコール、f1スコアである。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - OffensiveLang: A Community Based Implicit Offensive Language Dataset [5.813922783967869]
ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在する。
OffensiveLangはコミュニティベースの暗黙的な攻撃的な言語データセットである。
本稿では、暗黙の攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-04T20:34:58Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Ruddit: Norms of Offensiveness for English Reddit Comments [35.83156813452207]
英語のRedditコメントの最初のデータセットを作成します。
本手法は信頼性の高い攻撃性スコアを生成する。
我々は、この新たなデータセット上での攻撃性スコアを予測するために、広く使われているニューラルネットワークの能力を評価する。
論文 参考訳(メタデータ) (2021-06-10T11:27:47Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Offensive Language Identification in Greek [17.38318315623124]
本稿では,攻撃的言語識別のためのギリシャ初の注釈付きデータセットであるOGTDについて述べる。
OGTDは、Twitterから4,779件の投稿が攻撃的であり、攻撃的ではないという手動の注釈付きデータセットである。
データセットの詳細な説明とともに、このデータに基づいてトレーニングおよびテストされたいくつかの計算モデルを評価する。
論文 参考訳(メタデータ) (2020-03-16T22:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。