論文の概要: Hostility Detection in Hindi leveraging Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2101.05494v1
- Date: Thu, 14 Jan 2021 08:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 08:19:02.074691
- Title: Hostility Detection in Hindi leveraging Pre-Trained Language Models
- Title(参考訳): 訓練済み言語モデルを用いたヒンディー語における敵意検出
- Authors: Ojasv Kamal, Adarsh Kumar and Tejas Vaidhya
- Abstract要約: 本稿では,Hindi Devanagariスクリプトのソーシャルメディア投稿をHostile or Non-Hostileとして分類するためのトランスファーラーニングに基づくアプローチを提案する。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立します。
- 参考スコア(独自算出の注目度): 1.6436293069942312
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hostile content on social platforms is ever increasing. This has led to the
need for proper detection of hostile posts so that appropriate action can be
taken to tackle them. Though a lot of work has been done recently in the
English Language to solve the problem of hostile content online, similar works
in Indian Languages are quite hard to find. This paper presents a transfer
learning based approach to classify social media (i.e Twitter, Facebook, etc.)
posts in Hindi Devanagari script as Hostile or Non-Hostile. Hostile posts are
further analyzed to determine if they are Hateful, Fake, Defamation, and
Offensive. This paper harnesses attention based pre-trained models fine-tuned
on Hindi data with Hostile-Non hostile task as Auxiliary and fusing its
features for further sub-tasks classification. Through this approach, we
establish a robust and consistent model without any ensembling or complex
pre-processing. We have presented the results from our approach in
CONSTRAINT-2021 Shared Task on hostile post detection where our model performs
extremely well with 3rd runner up in terms of Weighted Fine-Grained F1 Score.
- Abstract(参考訳): ソーシャルプラットフォーム上の敵対的コンテンツはますます増えている。
これにより、敵のポストを適切に検出する必要があるため、それらに取り組むための適切なアクションが取られる。
オンラインでの敵対的コンテンツの問題を解決するために、最近英語で多くの作業が行われてきたが、インド語での同様の研究は見つからない。
本稿では、ソーシャルメディア(Twitter、Facebookなど)を分類するための移動学習に基づくアプローチを提案する。
ヒンディー・デヴァナガリ(Hindi Devanagari)は、ホステリーまたはノンホスティル(Non-Hostile)の登場人物。
敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。
本稿では,HindiデータとHostile-Non攻撃タスクを併用した注意ベース事前学習モデルを用いて,その特徴をサブタスク分類に活用する。
このアプローチを通じて、アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立する。
CONSTRAINT-2021 Shared Task on hostile post detectionでは,重み付きF1スコアを用いて,第3走者に対して極めて良好に動作している。
関連論文リスト
- Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。
パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。
提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文 参考訳(メタデータ) (2022-05-25T10:41:34Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Divide and Conquer: An Ensemble Approach for Hostile Post Detection in
Hindi [25.723773314371947]
このタスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。
マルチラベルのマルチクラス分類問題であり、各データインスタンスは、偽物、憎悪、攻撃、中傷、非敵意の5つのクラスのうち1つまたはそれ以上にアノテートされる。
私たちのチーム「Albatross」は、ヒンディー語のサブタスクでHostile Post Detectionで0.9709粗末な敵意F1スコアを達成し、タスクのために45チーム中2位を確保しました。
論文 参考訳(メタデータ) (2021-01-20T05:38:07Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。