論文の概要: Bangla Hate Speech Classification with Fine-tuned Transformer Models
- arxiv url: http://arxiv.org/abs/2512.02845v1
- Date: Tue, 02 Dec 2025 14:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.937266
- Title: Bangla Hate Speech Classification with Fine-tuned Transformer Models
- Title(参考訳): 微調整変圧器モデルを用いたバングラヘイト音声分類
- Authors: Yalda Keivan Jafari, Krishno Dey,
- Abstract要約: ヘイトスピーチ検出におけるBLP 2025共有タスクのサブタスク1Aとサブタスク1Bについて検討した。
我々は,ロジスティック回帰,ランダムフォレスト,デクエンションツリーをベースライン手法として作成・検討する。
また、ヘイトスピーチ分類のためのDis-tilBERT、BanglaBERT、m-BERT、XLM-RoBERTaなど、ユティライズされたトランスフォーマーベースモデルについても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech recognition in low-resource lan- guages remains a difficult problem due to in- sufficient datasets, orthographic heterogeneity, and linguistic variety. Bangla is spoken by more than 230 million people of Bangladesh and India (West Bengal). Despite the grow- ing need for automated moderation on social media platforms, Bangla is significantly under- represented in computational resources. In this work, we study Subtask 1A and Subtask 1B of the BLP 2025 Shared Task on hate speech detection. We reproduce the official base- lines (e.g., Majority, Random, Support Vec- tor Machine) and also produce and consider Logistic Regression, Random Forest, and De- cision Tree as baseline methods. We also uti- lized transformer-based models such as Dis- tilBERT, BanglaBERT, m-BERT, and XLM- RoBERTa for hate speech classification. All the transformer-based models outperformed base- line methods for the subtasks, except for Distil- BERT. Among the transformer-based models, BanglaBERT produces the best performance for both subtasks. Despite being smaller in size, BanglaBERT outperforms both m-BERT and XLM-RoBERTa, which suggests language- specific pre-training is very important. Our results highlight the potential and need for pre- trained language models for the low-resource Bangla language.
- Abstract(参考訳): 低リソースランゲージにおけるヘイト音声認識は、十分なデータセット、正書法的不均一性、言語的多様性のために依然として難しい問題である。
バングラ語はバングラデシュとインド(西ベンガル)の2億3000万人以上の人々によって話されている。
ソーシャルメディアプラットフォームにおける自動モデレーションの必要性はますます高まっているが、Banglaは計算リソースではかなり低レベルだ。
本研究では, ヘイトスピーチ検出におけるBLP 2025共有タスクのSubtask 1AとSubtask 1Bについて検討する。
我々は、公式なベースライン(例えば、Majority、Random、Support Vec-Tor Machine)を再現し、ロジスティック回帰、ランダムフォレスト、De-cision Treeをベースライン手法として作成・検討する。
また、ヘイトスピーチ分類のためのDis-tilBERT、BanglaBERT、m-BERT、XLM-RoBERTaなど、ユティライズされたトランスフォーマーベースモデルについても検討した。
変圧器ベースのモデルは、Distil-BERTを除いて、サブタスクのベースライン法よりも優れていた。
トランスフォーマーベースのモデルの中で、BanglaBERTは両方のサブタスクで最高のパフォーマンスを誇っている。
サイズが小さいにもかかわらず、BanglaBERTはm-BERTとXLM-RoBERTaの両方より優れており、言語固有の事前トレーニングが非常に重要であることを示唆している。
我々の結果は、低リソースのBangla言語のための事前訓練された言語モデルの可能性と必要性を浮き彫りにしている。
関連論文リスト
- LLM-Based Multi-Task Bangla Hate Speech Detection: Type, Severity, and Target [27.786707138241493]
マルチタスクのヘイトスピーチデータセットであるBanglaMultiHateを紹介した。
ゼロショットプロンプトとLoRAファインチューニングの下で,古典的ベースライン,モノリンガル事前学習モデル,LLMを比較した。
本実験は,低リソース環境下でのLLM適応性を評価し,一貫した傾向を示すものである。
論文 参考訳(メタデータ) (2025-10-02T13:17:11Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [94.64616634862995]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models [0.0]
ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
論文 参考訳(メタデータ) (2022-09-13T17:59:21Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。