論文の概要: Masculine Defaults via Gendered Discourse in Podcasts and Large Language Models
- arxiv url: http://arxiv.org/abs/2504.11431v1
- Date: Tue, 15 Apr 2025 17:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:32.344651
- Title: Masculine Defaults via Gendered Discourse in Podcasts and Large Language Models
- Title(参考訳): ポッドキャストと大規模言語モデルにおける性談話による男性デフォルト
- Authors: Maria Teleki, Xiangjue Dong, Haoran Liu, James Caverlee,
- Abstract要約: 男性的デフォルトは、(i)文化的文脈、(ii)男性的特徴または行動、(iii)男性的特徴または行動に対する報酬、または単に受け入れることの3つの重要な部分を含む。
我々は、ソーシャルメディアの人気の成長形態であるポッドキャストに焦点を合わせ、15,117のポッドキャストエピソードを分析した。
本研究では、これらのジェンダー化された言論語がドメイン固有の文脈で流行していることを調査し、ジェンダー化された言論ベースの男性デフォルトが、ビジネス、技術、政治、ビデオゲームの領域に存在することを確認する。
- 参考スコア(独自算出の注目度): 17.48069194394518
- License:
- Abstract: Masculine defaults are widely recognized as a significant type of gender bias, but they are often unseen as they are under-researched. Masculine defaults involve three key parts: (i) the cultural context, (ii) the masculine characteristics or behaviors, and (iii) the reward for, or simply acceptance of, those masculine characteristics or behaviors. In this work, we study discourse-based masculine defaults, and propose a twofold framework for (i) the large-scale discovery and analysis of gendered discourse words in spoken content via our Gendered Discourse Correlation Framework (GDCF); and (ii) the measurement of the gender bias associated with these gendered discourse words in LLMs via our Discourse Word-Embedding Association Test (D-WEAT). We focus our study on podcasts, a popular and growing form of social media, analyzing 15,117 podcast episodes. We analyze correlations between gender and discourse words -- discovered via LDA and BERTopic -- to automatically form gendered discourse word lists. We then study the prevalence of these gendered discourse words in domain-specific contexts, and find that gendered discourse-based masculine defaults exist in the domains of business, technology/politics, and video games. Next, we study the representation of these gendered discourse words from a state-of-the-art LLM embedding model from OpenAI, and find that the masculine discourse words have a more stable and robust representation than the feminine discourse words, which may result in better system performance on downstream tasks for men. Hence, men are rewarded for their discourse patterns with better system performance by one of the state-of-the-art language models -- and this embedding disparity is a representational harm and a masculine default.
- Abstract(参考訳): 男性的デフォルトは、性別バイアスの重要なタイプとして広く認識されているが、調査されていないため、しばしば見つからない。
男性デフォルトには3つの重要な部分が含まれる。
(i)文化の文脈
二 男性の特徴又は行動、及び
三 男性の特徴又は行動に対する報酬又は単に受理すること。
本研究では,談話に基づく男性デフォルトについて検討し,その2つの枠組みを提案する。
一 ジェンダード・ディスコース相関フレームワーク(GDCF)による音声コンテンツ中のジェンダード・ディスコース単語の大規模発見と分析
(2)D-WEAT(Discourse Word-Embedding Association Test)を用いて,これらのジェンダー付き談話語に関連する性差の測定を行った。
我々は、ソーシャルメディアの人気の成長形態であるポッドキャストに焦点を合わせ、15,117のポッドキャストエピソードを分析した。
LDA と BERTopic を通じて発見されたジェンダーと談話語の相関関係を分析し,ジェンダー付き談話単語リストを自動生成する。
次に、これらのジェンダー化された言論語をドメイン固有の文脈で研究し、ジェンダー化された言論ベースの男性デフォルトがビジネス、技術/政治、ビデオゲームの領域に存在することを確認する。
次に,これらのジェンダー付き談話単語の表現をOpenAIの最先端のLLM埋め込みモデルから検討し,男性用談話単語が女性用談話単語よりも安定で頑健な表現であることから,男性用下流タスクにおけるシステム性能が向上する可能性が示唆された。
したがって、男性は最先端の言語モデルによってより優れたシステムパフォーマンスを持つ談話パターンに報いる。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Gender Bias in Large Language Models across Multiple Languages [10.068466432117113]
異なる言語で生成される大言語モデル(LLM)の性別バイアスについて検討する。
1) 性別関連文脈から記述的単語を選択する際の性別バイアス。
2) 性別関連代名詞を選択する際の性別バイアスは, 記述語を付与する。
論文 参考訳(メタデータ) (2024-03-01T04:47:16Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Analysis of Male and Female Speakers' Word Choices in Public Speeches [0.0]
TED講義等の公的な住所における男女のプレゼンターの語選択について比較した。
以上の結果から, 男性話者は, 言語, 心理的, 認知的, 社会的な言葉を, 女性話者よりもはるかに多く使用していることが判明した。
論文 参考訳(メタデータ) (2022-11-11T17:30:28Z) - Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency,
Syntax, and Semantics [3.4048739113355215]
インターネットコーパスで学習した英語の静的単語埋め込みにおいて,グループベースのバイアスを包括的に分析する。
単一カテゴリー単語埋め込みアソシエーションテストを用いて,性別バイアスの広範性を示す。
語彙の中で最も頻繁な単語1,000のうち、77%が女性よりも男性に関連があることがわかりました。
論文 参考訳(メタデータ) (2022-06-07T15:35:10Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。