論文の概要: Beyond Binary Moderation: Identifying Fine-Grained Sexist and Misogynistic Behavior on GitHub with Large Language Models
- arxiv url: http://arxiv.org/abs/2507.20358v1
- Date: Sun, 27 Jul 2025 17:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.469604
- Title: Beyond Binary Moderation: Identifying Fine-Grained Sexist and Misogynistic Behavior on GitHub with Large Language Models
- Title(参考訳): バイナリのモデレーションを超えて: 大規模言語モデルによるGitHubの細粒度性差別的行動の特定
- Authors: Tanni Dev, Sayma Sultana, Amiangshu Bosu,
- Abstract要約: この研究では、GitHub上のセクシストと偽造的なコメントの12の異なるカテゴリを識別する、きめ細かいマルチクラス分類フレームワークを紹介した。
モデル性能は精度、リコール、F1スコア、マシューズ相関係数(MCC)を用いて厳密に比較した。
明確な定義と構造化された出力を持つよく設計されたプロンプトは、性差別の検出の精度と解釈可能性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 2.143810875751196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Sexist and misogynistic behavior significantly hinders inclusion in technical communities like GitHub, causing developers, especially minorities, to leave due to subtle biases and microaggressions. Current moderation tools primarily rely on keyword filtering or binary classifiers, limiting their ability to detect nuanced harm effectively. Aims: This study introduces a fine-grained, multi-class classification framework that leverages instruction-tuned Large Language Models (LLMs) to identify twelve distinct categories of sexist and misogynistic comments on GitHub. Method: We utilized an instruction-tuned LLM-based framework with systematic prompt refinement across 20 iterations, evaluated on 1,440 labeled GitHub comments across twelve sexism/misogyny categories. Model performances were rigorously compared using precision, recall, F1-score, and the Matthews Correlation Coefficient (MCC). Results: Our optimized approach (GPT-4o with Prompt 19) achieved an MCC of 0.501, significantly outperforming baseline approaches. While this model had low false positives, it struggled to interpret nuanced, context-dependent sexism and misogyny reliably. Conclusion: Well-designed prompts with clear definitions and structured outputs significantly improve the accuracy and interpretability of sexism detection, enabling precise and practical moderation on developer platforms like GitHub.
- Abstract(参考訳): 背景: セクシストと偽造的行動は、GitHubのような技術コミュニティへの参加を著しく妨げ、開発者、特に少数派が微妙な偏見と微妙な偏見のために離脱する。
現在のモデレーションツールは、主にキーワードフィルタリングやバイナリ分類器に依存しており、ニュアンス付き害を効果的に検出する能力を制限する。
Aims: 今回の調査では、インストラクションチューニングされたLarge Language Model(LLM)を活用して、GitHub上の12の異なるセクシストと偽造的なコメントを識別する、きめ細かいマルチクラス分類フレームワークを導入しています。
方法: インストラクションをチューニングしたLLMベースのフレームワークを20回にわたって体系的に改善し,12のセクシズム/マイソジニーカテゴリに1,440のラベル付きGitHubコメントで評価した。
モデル性能は精度、リコール、F1スコア、マシューズ相関係数(MCC)を用いて厳密に比較した。
結果: 最適化アプローチ (GPT-4o with Prompt 19) は0.501のMCCを達成し, ベースラインアプローチよりも優れていた。
このモデルは偽陽性が低かったが、ニュアンス、文脈に依存した性差別、誤認を確実に解釈するのに苦労した。
結論: 明確な定義と構造化されたアウトプットを備えたよく設計されたプロンプトは、性差別検出の正確性と解釈可能性を大幅に向上させ、GitHubのような開発者プラットフォーム上での正確かつ実用的なモデレーションを可能にします。
関連論文リスト
- An Adaptive Supervised Contrastive Learning Framework for Implicit Sexism Detection in Digital Social Networks [0.728258471592763]
アダプティブ・スーパービジョン・コントラスト(Adaptive Supervised Contrastive lEarning)による性差別検出フレームワーク(ASCEND)について紹介する。
本手法の重要な革新は,しきい値に基づくコントラスト学習の導入である。
EXIST2021とMLSCデータセットの評価は、ASCENDが既存のメソッドよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2025-07-03T14:22:21Z) - Explaining Matters: Leveraging Definitions and Semantic Expansion for Sexism Detection [9.477601265462694]
本稿では、性差別検出のための2つのプロンプトベースのデータ拡張手法を提案する。
また,複数の言語モデルから補完的な視点を集約することで,予測関係を解消するアンサンブル戦略を導入する。
EDOSデータセットに対する実験的な評価は、すべてのタスクにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-06-06T16:58:12Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - AI-UPV at EXIST 2023 -- Sexism Characterization Using Large Language
Models Under The Learning with Disagreements Regime [2.4261434441245897]
本稿では,CLEF 2023のEXIST (sexism Identification in Social networks) LabへのAI-UPVチームの参加について述べる。
提案手法は、性差別の識別と特徴付けの課題を、不一致のパラダイムによる学習の下で解決することを目的としている。
提案システムは、大きな言語モデル(mBERTとXLM-RoBERTa)と、英語とスペイン語で性差別の識別と分類のためのアンサンブル戦略を使用する。
論文 参考訳(メタデータ) (2023-07-07T04:49:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - SemEval-2023 Task 10: Explainable Detection of Online Sexism [5.542286527528687]
オンライン性差別(EDOS)の説明可能な検出に関するSemEval Task 10について紹介する。
i)セクシズムの細粒度ベクトルを含むセクシズムコンテンツの新しい階層的分類,i)細粒度ラベルによる2万件のソーシャルメディアコメントデータセット,およびモデル適応のための大きな未ラベルデータセット,iii)ベースラインモデル,および,課題への参加者の提出方法,結果,エラーの分析である。
論文 参考訳(メタデータ) (2023-03-07T20:28:39Z) - Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by
Ranking Algorithms [68.85295025020942]
本稿では,性別ステレオタイプをサポートする検索エンジンの傾向を定量化するジェンダーステレオタイプ強化(GSR)尺度を提案する。
GSRは、表現上の害を定量化できる情報検索のための、最初の特別に調整された尺度である。
論文 参考訳(メタデータ) (2020-09-02T20:45:04Z) - "Call me sexist, but...": Revisiting Sexism Detection Using
Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。
このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。
結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文 参考訳(メタデータ) (2020-04-27T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。