論文の概要: Dual-Class Prompt Generation: Enhancing Indonesian Gender-Based Hate Speech Detection through Data Augmentation
- arxiv url: http://arxiv.org/abs/2503.04279v1
- Date: Thu, 06 Mar 2025 10:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:20.044834
- Title: Dual-Class Prompt Generation: Enhancing Indonesian Gender-Based Hate Speech Detection through Data Augmentation
- Title(参考訳): 二重クラスプロンプト生成:データ拡張によるインドネシアのジェンダーベースヘイト音声検出の強化
- Authors: Muhammad Amien Ibrahim, Faisal, Tora Sangputra Yopie Winarto, Zefanya Delvin Sulistiya,
- Abstract要約: インドネシアのソーシャルメディアにおけるジェンダーベースのヘイトスピーチの検出は、ラベル付きデータセットが限られているため、依然として困難である。
我々は,逆翻訳,単一クラスプロンプト生成,および提案する2クラスプロンプト生成を評価した。
両クラスからサンプルを組み込むことで,言語モデルがより多様だが代表的なサンプルを生成することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Detecting gender-based hate speech in Indonesian social media remains challenging due to limited labeled datasets. While binary hate speech classification has advanced, a more granular category like gender-targeted hate speech is understudied because of class imbalance issues. This paper addresses this gap by comparing three data augmentation techniques for Indonesian gender-based hate speech detection. We evaluate backtranslation, single-class prompt generation (using only hate speech examples), and our proposed dual-class prompt generation (using both hate speech and non-hate speech examples). Experiments show all augmentation methods improve classification performance, with our dual-class approach achieving the best results (88.5% accuracy, 88.1% F1-score using Random Forest). Semantic similarity analysis reveals dual-class prompt generation produces the most novel content, while T-SNE visualizations confirm these samples occupy distinct feature space regions while maintaining class characteristics. Our findings suggest that incorporating examples from both classes helps language models generate more diverse yet representative samples, effectively addressing limited data challenges in specialized hate speech detection.
- Abstract(参考訳): インドネシアのソーシャルメディアにおけるジェンダーベースのヘイトスピーチの検出は、ラベル付きデータセットが限られているため、依然として困難である。
二項ヘイトスピーチの分類は進歩してきたが、ジェンダーターゲットのヘイトスピーチのようなより粒度の細かいカテゴリーは、階級的不均衡の問題のために検討されている。
本稿では、インドネシアのジェンダーに基づくヘイトスピーチ検出のための3つのデータ拡張手法を比較して、このギャップに対処する。
本研究では, 逆翻訳, 単一クラスプロンプト生成(ヘイトスピーチ例のみを用いて) と, 提案した2クラスプロンプト生成(ヘイトスピーチ例と非ヘイトスピーチ例の両方を用いて)を評価した。
実験では、全ての拡張手法により分類性能が向上し、最良の結果(ランダムフォレストを用いた88.5%の精度、88.1%のF1スコア)が得られた。
セマンティックな類似性分析により、二重クラスプロンプト生成が最も新規なコンテンツを生成するのに対し、T-SNEの可視化では、これらのサンプルがクラス特性を維持しながら特徴空間の異なる領域を占めることを確認した。
本研究は,両クラスからサンプルを組み込むことにより,言語モデルがより多種多様かつ代表的なサンプルを生成し,特定のヘイトスピーチ検出における限られたデータ課題に効果的に対処できることを示唆する。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Ensemble of pre-trained language models and data augmentation for hate speech detection from Arabic tweets [0.27309692684728604]
本研究では,従来手作業でラベル付けされていたアンサンブル学習と半教師付き学習を活用する新しい手法を提案する。
我々は、アラビア語のツイートを、非憎悪、一般憎悪、人種、宗教、セクシズムの5つのクラスに分類して、ベンチマークデータセットで実験を行った。
論文 参考訳(メタデータ) (2024-07-02T17:26:26Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Improved two-stage hate speech classification for twitter based on Deep
Neural Networks [0.0]
ヘイトスピーチ(Hate speech)は、虐待的な言葉の使用を含む、オンラインハラスメントの一種である。
この研究で提案するモデルは、LSTMニューラルネットワークアーキテクチャに基づく既存のアプローチの拡張である。
本研究は,16kツイートの公開コーパスで評価された2段階目の提案手法の性能比較を含む。
論文 参考訳(メタデータ) (2022-06-08T20:57:41Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。