論文の概要: Code-Mixed Telugu-English Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2502.10632v1
- Date: Sat, 15 Feb 2025 02:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:16.913372
- Title: Code-Mixed Telugu-English Hate Speech Detection
- Title(参考訳): コードミキシングテルグ英語ヘイト音声検出
- Authors: Santhosh Kakarla, Gautama Shastry Bulusu Venkata,
- Abstract要約: 本研究では,TeleguHateBERT,HateBERT,DeBERTa,Muril,IndicBERT,Roberta,Hindi-Abusive-MuRILなどのトランスフォーマーモデルを用いて,Teluguにおけるヘイトスピーチの分類を行った。
低ランク適応(LoRA)を用いてこれらのモデルを微調整し、効率と性能を最適化する。
Google Translateを使ってTeluguのテキストを英語に翻訳し、分類精度への影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Hate speech detection in low-resource languages like Telugu is a growing challenge in NLP. This study investigates transformer-based models, including TeluguHateBERT, HateBERT, DeBERTa, Muril, IndicBERT, Roberta, and Hindi-Abusive-MuRIL, for classifying hate speech in Telugu. We fine-tune these models using Low-Rank Adaptation (LoRA) to optimize efficiency and performance. Additionally, we explore a multilingual approach by translating Telugu text into English using Google Translate to assess its impact on classification accuracy. Our experiments reveal that most models show improved performance after translation, with DeBERTa and Hindi-Abusive-MuRIL achieving higher accuracy and F1 scores compared to training directly on Telugu text. Notably, Hindi-Abusive-MuRIL outperforms all other models in both the original Telugu dataset and the translated dataset, demonstrating its robustness across different linguistic settings. This suggests that translation enables models to leverage richer linguistic features available in English, leading to improved classification performance. The results indicate that multilingual processing can be an effective approach for hate speech detection in low-resource languages. These findings demonstrate that transformer models, when fine-tuned appropriately, can significantly improve hate speech detection in Telugu, paving the way for more robust multilingual NLP applications.
- Abstract(参考訳): Teluguのような低リソース言語でのヘイトスピーチ検出は、NLPにおいてますます困難になっている。
本研究では,TeleguHateBERT,HateBERT,DeBERTa,Muril,IndicBERT,Roberta,Hindi-Abusive-MuRILなどのトランスフォーマーモデルを用いて,Teluguにおけるヘイトスピーチの分類を行った。
低ランク適応(LoRA)を用いてこれらのモデルを微調整し、効率と性能を最適化する。
さらに,Google Translateを用いてTeluguテキストを英語に翻訳し,その分類精度への影響を評価する。
実験の結果,DeBERTaとHindi-Abusive-MuRILはTeluguテキストのトレーニングよりも精度が高く,F1スコアが得られた。
特に、Hindi-Abusive-MuRILは、オリジナルのTeluguデータセットと翻訳データセットの両方において、他のすべてのモデルよりも優れており、異なる言語設定でその堅牢性を示している。
このことは、翻訳モデルがより豊かな言語的特徴を英語で活用し、分類性能を向上させることを示唆している。
その結果,低リソース言語におけるヘイトスピーチ検出には,多言語処理が有効であることが示唆された。
これらの結果から, トランスフォーマーモデルは, 適切に調整された場合, テルグ語におけるヘイトスピーチ検出を大幅に改善し, より堅牢な多言語NLPアプリケーションを実現することが示唆された。
関連論文リスト
- Impact of Tokenization on LLaMa Russian Adaptation [0.0]
LLaMaロシア語適応の文脈で語彙置換の問題に対処する可能性を検討する。
自動評価の結果、語彙置換はロシア語のモデルの質を向上させることが示された。
命令調整されたモデルの人間による追加評価は、ロシア語適応語彙を持つモデルがより高いユーザの好みで回答を生成することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:16:03Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data [2.064612766965483]
ゼロおよび少数ショット設定で良好に機能する自然言語推論(NLI)モデルは、ヘイトスピーチ検出性能の恩恵を受ける。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-06-06T14:40:41Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。