論文の概要: IITR-CIOL@NLU of Devanagari Script Languages 2025: Multilingual Hate Speech Detection and Target Identification in Devanagari-Scripted Languages
- arxiv url: http://arxiv.org/abs/2412.17947v1
- Date: Mon, 23 Dec 2024 19:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:40.331517
- Title: IITR-CIOL@NLU of Devanagari Script Languages 2025: Multilingual Hate Speech Detection and Target Identification in Devanagari-Scripted Languages
- Title(参考訳): デバナガリスクリプト言語2025のIITR-CIOL@NLU:デバナガリスクリプト言語における多言語ヘイト音声の検出とターゲット同定
- Authors: Siddhant Gupta, Siddh Singhal, Azmine Toushik Wasi,
- Abstract要約: 本研究は,デバナガリ文字言語におけるヘイトスピーチ検出とターゲット識別に関連する2つのサブタスクに焦点を当てた。
Subtask Bはヘイトスピーチをオンラインテキストで検出するが、Subtask Cはヘイトスピーチの特定のターゲットを特定する必要がある。
我々は、事前訓練された多言語変換モデル ia-multilingual-transliterated-roberta に基づいて構築されたディープニューラルネットワークであるMultilingualRobertaClass モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work focuses on two subtasks related to hate speech detection and target identification in Devanagari-scripted languages, specifically Hindi, Marathi, Nepali, Bhojpuri, and Sanskrit. Subtask B involves detecting hate speech in online text, while Subtask C requires identifying the specific targets of hate speech, such as individuals, organizations, or communities. We propose the MultilingualRobertaClass model, a deep neural network built on the pretrained multilingual transformer model ia-multilingual-transliterated-roberta, optimized for classification tasks in multilingual and transliterated contexts. The model leverages contextualized embeddings to handle linguistic diversity, with a classifier head for binary classification. We received 88.40% accuracy in Subtask B and 66.11% accuracy in Subtask C, in the test set.
- Abstract(参考訳): 特にヒンディー語、マラタイ語、ネパール語、ブージュプリ語、サンスクリット語のヘイトスピーチの検出とターゲット識別に関連する2つのサブタスクに焦点を当てている。
サブタスクBはオンラインテキストでヘイトスピーチを検出し、サブタスクCは個人、組織、コミュニティなどのヘイトスピーチの特定のターゲットを特定する必要がある。
本稿では,事前学習した多言語変換モデル ia-multilingual-transliterated-roberta に基づくディープニューラルネットワークであるMultilingualRobertaClass モデルを提案する。
このモデルは文脈的埋め込みを利用して言語多様性を処理し、二項分類のための分類器ヘッドを備える。
テストセットでは,Subtask Bでは88.40%,Subtask Cでは66.11%の精度が得られた。
関連論文リスト
- LLMsAgainstHate @ NLU of Devanagari Script Languages 2025: Hate Speech Detection and Target Identification in Devanagari Languages via Parameter Efficient Fine-Tuning of LLMs [9.234570108225187]
本稿では,ヘイトスピーチ検出とターゲット識別のためのPEFT(Efficient Fine tuning)に基づくソリューションを提案する。
我々は,Devanagariデータセットを用いた複数のLCMの評価を行った(Thapa et al., 2025)。
以上の結果から,Devanagari-scriptedコンテンツに対するアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-12-22T18:38:24Z) - NLPineers@ NLU of Devanagari Script Languages 2025: Hate Speech Detection using Ensembling of BERT-based models [0.9974630621313314]
本稿では,ヒンディー語とネパール語に着目し,デバナガリ文字言語におけるヘイトスピーチの検出に焦点を当てた。
本研究では,様々なトランスフォーマーモデルを用いて,ヘイトスピーチと自由表現のニュアンス境界をナビゲートする効果について検討する。
この研究は、デバナガリ文字言語におけるヘイトスピーチ検出の必要性を強調し、さらなる研究の基盤を提供する。
論文 参考訳(メタデータ) (2024-12-11T07:37:26Z) - 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs [0.0]
本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-11T10:34:36Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。