論文の概要: Detecting Sexism in German Online Newspaper Comments with Open-Source Text Embeddings (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Subtasks 1 and 2, Closed Track)
- arxiv url: http://arxiv.org/abs/2409.10341v2
- Date: Wed, 2 Oct 2024 11:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:35:12.594207
- Title: Detecting Sexism in German Online Newspaper Comments with Open-Source Text Embeddings (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Subtasks 1 and 2, Closed Track)
- Title(参考訳): GDA, GermEval2024共有タスク1: GerMS-Detect, Subtasks 1, 2, Closed Track)
- Authors: Florian Bremm, Patrick Gustav Blaneck, Tobias Bornheim, Niklas Grieger, Stephan Bialonski,
- Abstract要約: オーストリアの新聞のドイツ語オンラインコメントにおいて,性差別や誤用を確実に検出するために,単言語および多言語対応のオープンソーステキスト埋め込みについて検討した。
GermEval 2024 GerMS-Detect Subtask 1では,平均マクロF1スコアが0.597。
また、GerMS-Detect Subtask 2におけるヒトアノテーションの分布を正確に予測し、平均Jensen-Shannon距離は0.301(第2位)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sexism in online media comments is a pervasive challenge that often manifests subtly, complicating moderation efforts as interpretations of what constitutes sexism can vary among individuals. We study monolingual and multilingual open-source text embeddings to reliably detect sexism and misogyny in German-language online comments from an Austrian newspaper. We observed classifiers trained on text embeddings to mimic closely the individual judgements of human annotators. Our method showed robust performance in the GermEval 2024 GerMS-Detect Subtask 1 challenge, achieving an average macro F1 score of 0.597 (4th place, as reported on Codabench). It also accurately predicted the distribution of human annotations in GerMS-Detect Subtask 2, with an average Jensen-Shannon distance of 0.301 (2nd place). The computational efficiency of our approach suggests potential for scalable applications across various languages and linguistic contexts.
- Abstract(参考訳): オンラインメディアのコメントにおける性差別は、しばしば微妙に現れ、性差別を構成するものの解釈としてモデレーションの努力を複雑化する広汎な挑戦である。
オーストリアの新聞のドイツ語オンラインコメントにおいて,性差別や誤用を確実に検出するために,単言語および多言語対応のオープンソーステキスト埋め込みについて検討した。
テキスト埋め込みで訓練された分類器を観察し,人間のアノテーションの個々の判断を忠実に模倣した。
GermEval 2024 GerMS-Detect Subtask 1では,平均マクロF1スコアが0.597(Codabenchでは4位)に達した。
また、GerMS-Detect Subtask 2における人間のアノテーションの分布を正確に予測し、平均Jensen-Shannon距離は0.301(第2位)であった。
このアプローチの計算効率は、様々な言語や言語コンテキストにまたがるスケーラブルなアプリケーションの可能性を示している。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Towards Massive Multilingual Holistic Bias [9.44611286329108]
我々は,MaSSIVE MultilingUal HOLISTICBIASデータセットから,最初の8言語を提示する。
本稿では,MMHB文を言語範囲とサイズの両方で拡張するための自動構築手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T16:26:27Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - PetKaz at SemEval-2024 Task 8: Can Linguistics Capture the Specifics of LLM-generated Text? [4.463184061618504]
我々はSemEval-2024タスク8「マルチジェネレータ、マルチドメイン、ブラックボックスマシン生成テキスト検出」を提出する。
我々のアプローチは、RoBERTaベースからの埋め込みと多様性機能の組み合わせに依存し、再サンプリングされたトレーニングセットを使用する。
その結果,本手法は未知のモデルや領域にまたがって一般化可能であり,精度は0.91であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T13:05:02Z) - GATE X-E : A Challenge Set for Gender-Fair Translations from
Weakly-Gendered Languages [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-4で構築した翻訳性書換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2024-02-22T04:36:14Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Easy Adaptation to Mitigate Gender Bias in Multilingual Text
Classification [8.137681060429527]
ジェンダーをドメインとして扱い、標準領域適応モデルを示し、ジェンダーバイアスを低減する。
ヘイトスピーチ検出とレーティング予測という2つのテキスト分類タスクに対するアプローチを評価し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-04-12T01:15:36Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。