論文の概要: Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings
- arxiv url: http://arxiv.org/abs/2101.04998v1
- Date: Wed, 13 Jan 2021 11:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 17:30:04.917019
- Title: Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings
- Title(参考訳): 微調整多言語埋め込みを用いたヒンディー語ポストの粗大および細粒度の敵意検出
- Authors: Arkadipta De, Venkatesh E, Kaushal Kumar Maurya, Maunendra Sankar
Desarkar
- Abstract要約: 敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 4.3012765978447565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the wide adoption of social media platforms like Facebook, Twitter,
etc., there is an emerging need of detecting online posts that can go against
the community acceptance standards. The hostility detection task has been well
explored for resource-rich languages like English, but is unexplored for
resource-constrained languages like Hindidue to the unavailability of large
suitable data. We view this hostility detection as a multi-label multi-class
classification problem. We propose an effective neural network-based technique
for hostility detection in Hindi posts. We leverage pre-trained multilingual
Bidirectional Encoder Representations of Transformer (mBERT) to obtain the
contextual representations of Hindi posts. We have performed extensive
experiments including different pre-processing techniques, pre-trained models,
neural architectures, hybrid strategies, etc. Our best performing neural
classifier model includes One-vs-the-Rest approach where we obtained 92.60%,
81.14%,69.59%, 75.29% and 73.01% F1 scores for hostile, fake, hate, offensive,
and defamation labels respectively. The proposed model outperformed the
existing baseline models and emerged as the state-of-the-art model for
detecting hostility in the Hindi posts.
- Abstract(参考訳): facebookやtwitterなどのソーシャルメディアプラットフォームが広く採用されているため、コミュニティの受け入れ基準に反し得るオンライン投稿を検出する必要性が高まっている。
敵意検出タスクは英語のようなリソース豊富な言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
我々は、この敵意検出をマルチラベルのマルチクラス分類問題と見なしている。
ヒンディー語投稿における敵意検出に有効なニューラルネットワーク技術を提案する。
我々は,Hindiポストの文脈表現を得るために,事前学習した多言語双方向トランスフォーマー表現(mBERT)を利用する。
我々は,様々な前処理技術,事前学習モデル,ニューラルアーキテクチャ,ハイブリッド戦略などを含む広範な実験を行った。
我々の最も優れた神経分類モデルには、1つのvs-the-restアプローチがあり、それぞれ92.60%、81.14%、69.59%、75.29%、73.01%のf1スコアを敵意、偽、憎悪、嫌悪、不名誉のラベルで獲得した。
提案モデルは,既存のベースラインモデルよりも優れており,ヒンディー語ポストの敵意を検出するための最先端モデルとして出現した。
関連論文リスト
- Multilingual Bias Detection and Mitigation for Indian Languages [12.957036336552372]
多様な視点の欠如は、ウィキペディアのコンテンツに中立バイアスをもたらし、世界中の何百万人もの読者が露出する。
バイアス検出タスクと緩和タスクに8言語をカバーする2つの大規模データセットmWikiBiasとmWNCをコントリビュートする。
次に、二項分類問題として検出をモデル化し、スタイル伝達問題として緩和することにより、2つのタスクに対する多言語トランスフォーマーモデルの有効性を検討する。
論文 参考訳(メタデータ) (2023-12-23T07:36:20Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi
Posts [3.9373541926236766]
我々は,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを構築した。
コンペティションの総合順位は0.969, 重み付きf1スコアは0.961で, それぞれ2段分類と多段分類タスクで3位であった。
論文 参考訳(メタデータ) (2021-01-15T07:49:27Z) - Hostility Detection in Hindi leveraging Pre-Trained Language Models [1.6436293069942312]
本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
論文 参考訳(メタデータ) (2021-01-14T08:04:32Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。