論文の概要: Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi
Posts
- arxiv url: http://arxiv.org/abs/2101.06004v1
- Date: Fri, 15 Jan 2021 07:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:21:32.909528
- Title: Walk in Wild: An Ensemble Approach for Hostility Detection in Hindi
Posts
- Title(参考訳): 野生でのウォーク:ヒンディー教ポストにおけるホスト性検出のためのアンサンブルアプローチ
- Authors: Chander Shekhar, Bhavya Bagla, Kaushal Kumar Maurya, Maunendra Sankar
Desarkar
- Abstract要約: 我々は,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを構築した。
コンペティションの総合順位は0.969, 重み付きf1スコアは0.961で, それぞれ2段分類と多段分類タスクで3位であった。
- 参考スコア(独自算出の注目度): 3.9373541926236766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the reach of the internet increases, pejorative terms started flooding
over social media platforms. This leads to the necessity of identifying hostile
content on social media platforms. Identification of hostile contents on
low-resource languages like Hindi poses different challenges due to its diverse
syntactic structure compared to English. In this paper, we develop a simple
ensemble based model on pre-trained mBERT and popular classification algorithms
like Artificial Neural Network (ANN) and XGBoost for hostility detection in
Hindi posts. We formulated this problem as binary classification (hostile and
non-hostile class) and multi-label multi-class classification problem (for more
fine-grained hostile classes). We received third overall rank in the
competition and weighted F1-scores of ~0.969 and ~0.61 on the binary and
multi-label multi-class classification tasks respectively.
- Abstract(参考訳): インターネットが普及するにつれて、軽率な言葉がソーシャルメディアプラットフォームに溢れ始めた。
これにより、ソーシャルメディアプラットフォーム上で敵対的なコンテンツを特定する必要がある。
ヒンディー語のような低リソース言語における敵対的な内容の識別は、英語に比べて多様な構文構造のため、異なる課題をもたらす。
本稿では,事前学習したmBERTと,ニューラルネットワーク(ANN)やXGBoostなどの一般的な分類アルゴリズムに基づいて,ヒンディー語投稿の敵意検出のための簡単なアンサンブルモデルを開発する。
この問題を二進分類(ホストクラスと非ホストクラス)とマルチラベルマルチクラス分類問題(よりきめ細かい敵対クラス)として定式化した。
F1スコアは2進数と複数ラベルの多クラス分類タスクでそれぞれ0.969と0.61と重み付けされた。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Subsidiary Prototype Alignment for Universal Domain Adaptation [58.431124236254]
Universal Domain Adaptation (UniDA)の大きな問題は、"known"クラスと"unknown"クラスの誤調整である。
ゴールタスクUniDAと協調して動作するクローズドセットSPAを実現するために,新しい単語ヒストグラム関連プレテキストタスクを提案する。
既存のUniDA技術上でのアプローチの有効性を実証し,3つの標準UniDAおよびOpen-Set DAオブジェクト認識ベンチマークの最先端性能を示す。
論文 参考訳(メタデータ) (2022-10-28T05:32:14Z) - Divide and Conquer: An Ensemble Approach for Hostile Post Detection in
Hindi [25.723773314371947]
このタスクのデータは、twitterとfacebookから収集されたhindi devanagariスクリプトで提供される。
マルチラベルのマルチクラス分類問題であり、各データインスタンスは、偽物、憎悪、攻撃、中傷、非敵意の5つのクラスのうち1つまたはそれ以上にアノテートされる。
私たちのチーム「Albatross」は、ヒンディー語のサブタスクでHostile Post Detectionで0.9709粗末な敵意F1スコアを達成し、タスクのために45チーム中2位を確保しました。
論文 参考訳(メタデータ) (2021-01-20T05:38:07Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Task Adaptive Pretraining of Transformers for Hostility Detection [11.306581296760864]
a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アグレッシブ、デマネーション)に分類する。
本システムでは, 粗粒度検出のF1スコアが97.16%, 重み付きF1スコアが62.96%, 得られたブラインドテストコーパスの細粒度多ラベル分類のF1スコアが62.96%であった。
論文 参考訳(メタデータ) (2021-01-09T15:45:26Z) - kk2018 at SemEval-2020 Task 9: Adversarial Training for Code-Mixing
Sentiment Classification [18.41476971318978]
コードスイッチング(英: Code switch)とは、話者が複数の言語を共有する多言語環境において発生する言語現象である。
本研究では、コードミキシングデータセット上で、最先端のユニ言語モデルERNIEからのドメイン転送学習をテストする。
多言語モデルによる対戦訓練は、セムヴァル2020タスク9ヒンディー語の感情分類競技の第1位を達成するために使用される。
論文 参考訳(メタデータ) (2020-09-08T12:20:04Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - "Hinglish" Language -- Modeling a Messy Code-Mixed Language [0.0]
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
論文 参考訳(メタデータ) (2019-12-30T23:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。