論文の概要: Constructive and Toxic Speech Detection for Open-domain Social Media
Comments in Vietnamese
- arxiv url: http://arxiv.org/abs/2103.10069v2
- Date: Fri, 19 Mar 2021 08:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:07:49.884501
- Title: Constructive and Toxic Speech Detection for Open-domain Social Media
Comments in Vietnamese
- Title(参考訳): ベトナムにおけるオープンドメインソーシャルメディアコメントに対する構成的・毒性的音声検出
- Authors: Luan Thanh Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 本論文では,1万語のコメントで構成的,有毒な音声検出を分類するためのデータセットを作成する。
PhoBERTとしてベトナムNLPにおける最先端の転送学習モデルを用いた構造的および有毒な音声検出システムを提案する。
結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。
- 参考スコア(独自算出の注目度): 0.32228025627337864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rise of social media has led to the increasing of comments on online
forums. However, there still exists some invalid comments which were not
informative for users. Moreover, those comments are also quite toxic and
harmful to people. In this paper, we create a dataset for classifying
constructive and toxic speech detection, named UIT-ViCTSD (Vietnamese
Constructive and Toxic Speech Detection dataset) with 10,000 human-annotated
comments. For these tasks, we proposed a system for constructive and toxic
speech detection with the state-of-the-art transfer learning model in
Vietnamese NLP as PhoBERT. With this system, we achieved 78.59% and 59.40%
F1-score for identifying constructive and toxic comments separately. Besides,
to have an objective assessment for the dataset, we implement a variety of
baseline models as traditional Machine Learning and Deep Neural Network-Based
models. With the results, we can solve some problems on the online discussions
and develop the framework for identifying constructiveness and toxicity
Vietnamese social media comments automatically.
- Abstract(参考訳): ソーシャルメディアの普及は、オンラインフォーラムでのコメントの増加につながっている。
しかし、ユーザーには役に立たない不適切なコメントがいくつか残っている。
さらに、これらのコメントは人々にとって非常に有毒で有害です。
本稿では,1万件のコメントを付加した構築的・有害な音声検出用データセット,UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) を作成する。
これらの課題に対して,ベトナムのNLPにおける最先端の伝達学習モデルであるPhoBERTを用いた構築的・有害な音声検出システムを提案する。
本システムでは, 建設的コメントと有毒コメントを別々に同定し, 78.59%, 59.40%のF1スコアを得た。
さらに,データセットを客観的に評価するために,従来の機械学習モデルやディープニューラルネットワークベースモデルなど,さまざまなベースラインモデルを実装している。
結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。
関連論文リスト
- Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation [0.0]
本研究は, トランスジェンダー, 先住民, 移民の3つの特定のグループを対象として, ベンガル語における有毒なコメントを同定することに焦点を当てた。
この方法論は、データセット、手動のアノテーションの作成と、Bangla-BERT、bangla-bert-base、distil-BERT、Bert-base-multilingual-casedといったトレーニング済みのトランスフォーマーモデルの使用を含む。
実験の結果、Bangla-BERTは代替モデルを超え、F1スコアは0.8903に達した。
論文 参考訳(メタデータ) (2024-09-25T17:48:59Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - A Large-scale Dataset for Hate Speech Detection on Vietnamese Social
Media Texts [0.32228025627337864]
ViHSDは、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間アノテーション付きデータセットである。
このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
論文 参考訳(メタデータ) (2021-03-22T00:55:47Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。