論文の概要: Evaluation of Deep Learning Models for Hostility Detection in Hindi Text
- arxiv url: http://arxiv.org/abs/2101.04144v3
- Date: Tue, 9 Mar 2021 16:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:49:48.337326
- Title: Evaluation of Deep Learning Models for Hostility Detection in Hindi Text
- Title(参考訳): ヒンディー語テキストにおける敵意検出のためのディープラーニングモデルの評価
- Authors: Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi
- Abstract要約: ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
- 参考スコア(独自算出の注目度): 2.572404739180802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The social media platform is a convenient medium to express personal thoughts
and share useful information. It is fast, concise, and has the ability to reach
millions. It is an effective place to archive thoughts, share artistic content,
receive feedback, promote products, etc. Despite having numerous advantages
these platforms have given a boost to hostile posts. Hate speech and derogatory
remarks are being posted for personal satisfaction or political gain. The
hostile posts can have a bullying effect rendering the entire platform
experience hostile. Therefore detection of hostile posts is important to
maintain social media hygiene. The problem is more pronounced languages like
Hindi which are low in resources. In this work, we present approaches for
hostile text detection in the Hindi language. The proposed approaches are
evaluated on the Constraint@AAAI 2021 Hindi hostility detection dataset. The
dataset consists of hostile and non-hostile texts collected from social media
platforms. The hostile posts are further segregated into overlapping classes of
fake, offensive, hate, and defamation. We evaluate a host of deep learning
approaches based on CNN, LSTM, and BERT for this multi-label classification
problem. The pre-trained Hindi fast text word embeddings by IndicNLP and
Facebook are used in conjunction with CNN and LSTM models. Two variations of
pre-trained multilingual transformer language models mBERT and IndicBERT are
used. We show that the performance of BERT based models is best. Moreover, CNN
and LSTM models also perform competitively with BERT based models.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、個人的思考を表現し、有用な情報を共有するための便利な媒体である。
速くて簡潔で、数百万人に達する能力がある。
思想のアーカイブ、芸術的内容の共有、フィードバックの受け取り、商品の宣伝などに有効な場所である。
多くの利点があるにもかかわらず、これらのプラットフォームは敵対的な投稿を後押ししている。
憎しみの言葉や軽蔑的な発言は、個人的な満足や政治的利益のために投稿されている。
敵対的な投稿は、プラットフォーム全体の敵対的な体験をもたらすいじめ効果を持つ。
したがって、ソーシャルメディア衛生を維持するためには敵対的姿勢の検出が重要である。
問題は、リソースが少ないヒンディー語のようなより発音しやすい言語である。
本研究では,ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
データセットは、ソーシャルメディアプラットフォームから収集された敵対的テキストと非敵対的テキストで構成されている。
敵のポストはさらに、偽物、攻撃的、憎しみ、および非難の重なり合うクラスに分離される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
IndicNLPとFacebookによる事前訓練されたHindiの高速テキストワード埋め込みは、CNNやLSTMモデルと組み合わせて使用される。
事前訓練された多言語変換言語モデル mBERT と IndicBERT の2つのバリエーションが使用されている。
BERTをベースとしたモデルの性能が最良であることを示す。
さらに、CNNとLSTMモデルはBERTベースのモデルと競合する。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Detection of Homophobia & Transphobia in Dravidian Languages: Exploring
Deep Learning Methods [1.5687561161428403]
ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを構成している。
本稿では,マラヤラムとタミル・ランゲージのソーシャルメディアコメントの分類に異なるディープラーニング・モジュールの適用性を検討する。
論文 参考訳(メタデータ) (2023-04-03T12:15:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Hostility Detection and Covid-19 Fake News Detection in Social Media [1.3499391168620467]
我々は,Hindi BERTとHindi FastTextモデルを用いて,乱用言語検出と特徴抽出を併用したモデルを構築した。
また、英語のツイートでCovid-19に関連する偽ニュースを識別するためのモデルを構築しています。
論文 参考訳(メタデータ) (2021-01-15T03:24:36Z) - Hostility Detection in Hindi leveraging Pre-Trained Language Models [1.6436293069942312]
本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
論文 参考訳(メタデータ) (2021-01-14T08:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。