論文の概要: Multi-task Learning with Active Learning for Arabic Offensive Speech Detection
- arxiv url: http://arxiv.org/abs/2506.02753v1
- Date: Tue, 03 Jun 2025 11:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.60646
- Title: Multi-task Learning with Active Learning for Arabic Offensive Speech Detection
- Title(参考訳): アラビア語攻撃音声検出のためのアクティブ学習によるマルチタスク学習
- Authors: Aisha Alansari, Hamzah Luqman,
- Abstract要約: 本稿では,多タスク学習(MTL)とアクティブラーニングを統合し,アラビアメディアテキストにおける攻撃的音声検出を強化する新しいフレームワークを提案する。
本手法は,トレーニング中のタスクの重み付けを動的に調整し,各タスクのコントリビューションのバランスをとり,性能を最適化する。
OSACT2022データセットの実験結果は、提案されたフレームワークが85.42%の最先端のマクロF1スコアを達成したことを示している。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of social media has amplified the spread of offensive, violent, and vulgar speech, which poses serious societal and cybersecurity concerns. Detecting such content in Arabic text is particularly complex due to limited labeled data, dialectal variations, and the language's inherent complexity. This paper proposes a novel framework that integrates multi-task learning (MTL) with active learning to enhance offensive speech detection in Arabic social media text. By jointly training on two auxiliary tasks, violent and vulgar speech, the model leverages shared representations to improve the detection accuracy of the offensive speech. Our approach dynamically adjusts task weights during training to balance the contribution of each task and optimize performance. To address the scarcity of labeled data, we employ an active learning strategy through several uncertainty sampling techniques to iteratively select the most informative samples for model training. We also introduce weighted emoji handling to better capture semantic cues. Experimental results on the OSACT2022 dataset show that the proposed framework achieves a state-of-the-art macro F1-score of 85.42%, outperforming existing methods while using significantly fewer fine-tuning samples. The findings of this study highlight the potential of integrating MTL with active learning for efficient and accurate offensive language detection in resource-constrained settings.
- Abstract(参考訳): ソーシャルメディアの急速な成長は、攻撃的、暴力的で下品なスピーチの拡散を増幅し、深刻な社会的・サイバーセキュリティの懸念を引き起こしている。
アラビア文字でそのような内容を検出することは、ラベル付きデータや方言のバリエーション、言語固有の複雑さのために特に複雑である。
本稿では,多タスク学習(MTL)とアクティブラーニングを統合し,アラビアメディアテキストにおける攻撃的音声検出を強化する新しいフレームワークを提案する。
暴力的および下品な音声の2つの補助的タスクを共同で訓練することにより、共有表現を活用して、攻撃的音声の検出精度を向上させる。
本手法は,トレーニング中のタスクの重み付けを動的に調整し,各タスクのコントリビューションのバランスをとり,性能を最適化する。
ラベル付きデータの不足に対処するため,複数の不確実性サンプリング手法を用いて,モデルトレーニングにおける最も情報性の高いサンプルを反復的に選択する,アクティブな学習戦略を採用している。
また、セマンティックな手がかりをよりよく捉えるために、重み付け絵文字処理を導入します。
OSACT2022データセットの実験結果によると、提案フレームワークは85.42%の最先端のマクロF1スコアを達成し、既存の手法よりもはるかに少ない微調整サンプルを使用した。
本研究は,資源制約条件下での攻撃的言語検出を効果的かつ正確に行うために,MTLと能動的学習の統合の可能性を明らかにするものである。
関連論文リスト
- Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data [59.30098850050971]
言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。
我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。
提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T12:25:33Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:40:37Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。