論文の概要: ToxSyn-PT: A Large-Scale Synthetic Dataset for Hate Speech Detection in Portuguese
- arxiv url: http://arxiv.org/abs/2506.10245v1
- Date: Wed, 11 Jun 2025 23:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.498856
- Title: ToxSyn-PT: A Large-Scale Synthetic Dataset for Hate Speech Detection in Portuguese
- Title(参考訳): ToxSyn-PT:ポルトガルにおけるヘイトスピーチ検出のための大規模合成データセット
- Authors: Iago Alves Brito, Julia Soares Dollis, Fernanda Bufon Färber, Diogo Fernandes Costa Silva, Arlindo Rodrigues Galvão Filho,
- Abstract要約: ToxSyn-PTは、きめ細かいヘイトスピーチ分類を可能にする最初の大規模なポルトガルのコーパスである。
データセットには、マイノリティグループと毒性ラベルに等しく分散された53,274の合成文が含まれている。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ToxSyn-PT, the first large-scale Portuguese corpus that enables fine-grained hate-speech classification across nine legally protected minority groups. The dataset contains 53,274 synthetic sentences equally distributed between minorities groups and toxicity labels. ToxSyn-PT is created through a novel four-stage pipeline: (1) a compact, manually curated seed; (2) few-shot expansion with an instruction-tuned LLM; (3) paraphrase-based augmentation; and (4) enrichment, plus additional neutral texts to curb overfitting to group-specific cues. The resulting corpus is class-balanced, stylistically diverse, and free from the social-media domain that dominate existing Portuguese datasets. Despite domain differences with traditional benchmarks, experiments on both binary and multi-label classification on the corpus yields strong results across five public Portuguese hate-speech datasets, demonstrating robust generalization even across domain boundaries. The dataset is publicly released to advance research on synthetic data and hate-speech detection in low-resource settings.
- Abstract(参考訳): ToxSyn-PTはポルトガル初の大規模コーパスで、9つの合法的に保護された少数民族にまたがる、きめ細かなヘイトスピーチ分類を可能にする。
データセットには、マイノリティグループと毒性ラベルに等しく分散された53,274の合成文が含まれている。
ToxSyn-PTは、(1)コンパクトで手動でキュレートされたシード、(2)命令調整されたLDMによる少数ショット展開、(3)パラフレーズベースの拡張、(4)エンリッチメント、およびグループ固有のキューへの過度な適合を抑制するための追加の中立テキストである。
得られたコーパスは、クラスバランスが取れ、スタイリスティックに多様性があり、既存のポルトガルのデータセットを支配しているソーシャルメディアドメインから解放されている。
従来のベンチマークとドメインの違いにもかかわらず、コーパス上のバイナリとマルチラベルの分類の実験は、5つのポルトガルのヘイトスピーチデータセットに対して強い結果をもたらし、ドメイン境界を越えても堅牢な一般化を示す。
このデータセットは、低リソース環境での合成データとヘイト音声検出の研究を進めるために、一般公開されている。
関連論文リスト
- BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla [0.0]
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-17T07:15:15Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity [0.0]
既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。
本研究では,Large Language Models (LLM) を用いた大規模かつ高品質な英語パラフレーズデータセットであるParaFusionを紹介する。
ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。
論文 参考訳(メタデータ) (2024-04-18T09:02:45Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。