論文の概要: Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages
- arxiv url: http://arxiv.org/abs/2310.02249v1
- Date: Tue, 3 Oct 2023 17:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:58:28.803563
- Title: Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages
- Title(参考訳): インド語における攻撃言語検出のための事前学習文変換器の調和
- Authors: Ananya Joshi, Raviraj Joshi
- Abstract要約: この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.6526824510982802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In our increasingly interconnected digital world, social media platforms have
emerged as powerful channels for the dissemination of hate speech and offensive
content. This work delves into the domain of hate speech detection, placing
specific emphasis on three low-resource Indian languages: Bengali, Assamese,
and Gujarati. The challenge is framed as a text classification task, aimed at
discerning whether a tweet contains offensive or non-offensive content.
Leveraging the HASOC 2023 datasets, we fine-tuned pre-trained BERT and SBERT
models to evaluate their effectiveness in identifying hate speech. Our findings
underscore the superiority of monolingual sentence-BERT models, particularly in
the Bengali language, where we achieved the highest ranking. However, the
performance in Assamese and Gujarati languages signifies ongoing opportunities
for enhancement. Our goal is to foster inclusive online spaces by countering
hate speech proliferation.
- Abstract(参考訳): ますます相互に繋がるデジタル世界では、ソーシャルメディアプラットフォームはヘイトスピーチと攻撃的なコンテンツの普及のための強力なチャネルとして現れています。
この研究はヘイトスピーチ検出の領域に分解され、ベンガル語、アッサム語、グジャラーティ語という3つの低資源インド語に重点が置かれた。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
HASOC 2023データセットを利用して、事前訓練されたBERTとSBERTモデルを微調整し、ヘイトスピーチの同定の有効性を評価する。
以上の結果から,単言語文-BERTモデルの優位性,特にベンガル語では高い評価を得た。
しかし、アッサム語とグジャラティ語のパフォーマンスは、強化の継続する機会を示している。
私たちの目標は、ヘイトスピーチの拡散に対抗することで、包括的オンライン空間を育むことです。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of
Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media [0.8287206589886881]
本稿では,HASOC-2023攻撃言語識別結果から得られた包括的結果と重要な成果について述べる。
主な重点はベンガル語、アサメ語、ボド語の言語領域におけるヘイトスピーチの綿密な検出である。
この作業では、XML-Roberta、L3-cube、IndicBERT、BenglaBERT、BanglaHateBERTといったBERTモデルを使用しました。
論文 参考訳(メタデータ) (2023-12-16T19:59:07Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Spread Love Not Hate: Undermining the Importance of Hateful Pre-training
for Hate Speech Detection [0.7874708385247353]
ヘイトフルプレトレーニングが低リソースヘイトスピーチ分類タスクに及ぼす影響について検討した。
我々は、40Mのツイートデータセットのヘイトフル、非ヘイトフル、混合サブセットに基づいて事前訓練された、ツイートベースのBERTモデルのさまざまなバリエーションを評価する。
対象領域から非有害テキストを事前学習することで、類似あるいはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-09T13:53:06Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。