論文の概要: Fair Play in the Newsroom: Actor-Based Filtering Gender Discrimination in Text Corpora
- arxiv url: http://arxiv.org/abs/2508.13169v1
- Date: Thu, 07 Aug 2025 11:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.514784
- Title: Fair Play in the Newsroom: Actor-Based Filtering Gender Discrimination in Text Corpora
- Title(参考訳): ニュースルームでのフェアプレイ:テキストコーパスにおけるアクターベースフィルタリングジェンダー識別
- Authors: Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen,
- Abstract要約: 本稿では,大規模テキストコーパスにおける性差別を検知・緩和するためのアクターレベルの拡張パイプラインを提案する。
本稿では,感情,統語的エージェンシー,引用スタイルの非対称性を捉える新しいアクターレベルのメトリクスを紹介する。
1980年から2024年までのドイツの新聞記事のtaz2024fullコーパスにアプローチを適用し,性別バランスを大幅に改善した。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly shaping digital communication, yet their outputs often reflect structural gender imbalances that originate from their training data. This paper presents an extended actor-level pipeline for detecting and mitigating gender discrimination in large-scale text corpora. Building on prior work in discourse-aware fairness analysis, we introduce new actor-level metrics that capture asymmetries in sentiment, syntactic agency, and quotation styles. The pipeline supports both diagnostic corpus analysis and exclusion-based balancing, enabling the construction of fairer corpora. We apply our approach to the taz2024full corpus of German newspaper articles from 1980 to 2024, demonstrating substantial improvements in gender balance across multiple linguistic dimensions. Our results show that while surface-level asymmetries can be mitigated through filtering and rebalancing, subtler forms of bias persist, particularly in sentiment and framing. We release the tools and reports to support further research in discourse-based fairness auditing and equitable corpus construction.
- Abstract(参考訳): 大規模な言語モデルはデジタルコミュニケーションを形作っているが、そのアウトプットはトレーニングデータに由来する構造的性別の不均衡を反映することが多い。
本稿では,大規模テキストコーパスにおける性差別を検知・緩和するためのアクターレベルの拡張パイプラインを提案する。
談話意識の公正度分析における先行研究に基づいて、感情、構文、引用スタイルの非対称性を捉える新しいアクターレベルのメトリクスを導入する。
このパイプラインは、診断コーパス分析と排他的バランスの両方をサポートし、より公正なコーパスの構築を可能にする。
我々は1980年から2024年までのドイツの新聞記事のtaz2024fullコーパスにアプローチを適用し、複数の言語的側面における性別バランスの大幅な改善を実証した。
以上の結果から, 表面の非対称性は, フィルターや再バランスによって緩和されるが, 特に感情やフレーミングにおいて, より微妙なバイアスが持続することが示唆された。
談話に基づく公正度監査と公平なコーパス構築のさらなる研究を支援するためのツールとレポートをリリースする。
関連論文リスト
- SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2499537119440245]
話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2025-08-11T12:58:37Z) - taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades [0.20971479389679337]
われわれは1980年から2024年にかけてドイツで発行された新聞記事の最大のコーパスであるtaz2024fullを紹介している。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:24:33Z) - Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [17.101242741559428]
本稿では,言語モデルの固有バイアス緩和と測定戦略に焦点を当てる。
我々は、本質的な測定を深く掘り下げ、矛盾を識別し、これらのベンチマークがジェンダーステレオタイプの違いを反映している可能性を示唆している。
本研究は, 言語モデルにおけるジェンダーステレオタイピングの複雑さと, 偏見の検出・低減のための, より洗練された手法を開発するための新たな方向性を指摘するものである。
論文 参考訳(メタデータ) (2025-01-02T09:40:31Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Why Can't Discourse Parsing Generalize? A Thorough Investigation of the
Impact of Data Diversity [10.609715843964263]
標準的な英語ニュースワイヤベンチマークでトレーニングされた最先端アーキテクチャは、十分に一般化されていないことを示す。
学習データにおけるジャンルの多様性の影響を定量化し,テキストタイプへの一般化を実現する。
本研究は,全木におけるクロスコーパスRTT解析の一般化性を評価する最初の試みである。
論文 参考訳(メタデータ) (2023-02-13T16:11:58Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - How to Split: the Effect of Word Segmentation on Gender Bias in Speech
Translation [14.955696163410254]
我々は、自動翻訳におけるジェンダーバイアスの分析を、一見中立的だが重要な要素である単語セグメンテーションに導入する。
2つの言語対(英語/イタリア語/フランス語)で得られた結果は、最先端のサブワード分割(BPE)が、ジェンダーバイアスの増大を犠牲にしていることを示している。
そこで本研究では,BPEの全体的な翻訳品質を向上すると同時に,文字ベースセグメンテーションの能力を活用し,ジェンダーを適切に翻訳する手法を提案する。
論文 参考訳(メタデータ) (2021-05-28T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。