論文の概要: Fair Play in the Newsroom: Actor-Based Filtering Gender Discrimination in Text Corpora
- arxiv url: http://arxiv.org/abs/2508.13169v3
- Date: Thu, 09 Oct 2025 07:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.50112
- Title: Fair Play in the Newsroom: Actor-Based Filtering Gender Discrimination in Text Corpora
- Title(参考訳): ニュースルームでのフェアプレイ:テキストコーパスにおけるアクターベースフィルタリングジェンダー識別
- Authors: Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen,
- Abstract要約: 本稿では,大規模テキストコーパスにおける性差別の検出と緩和を目的とした,ユーザ中心のアクターレベルのパイプラインを提案する。
ドイツの新聞記事のtaz2024fullコーパスに適用すると、このパイプラインは、ソース材料のコアダイナミクスを保ちながら、よりジェンダーバランスのよいデータセットを生成する。
本研究は, 系統的なフィルタリングによって構造的非対称性を低減できることを示すが, 感情やフレーミングの微妙なバイアスは残る。
- 参考スコア(独自算出の注目度): 4.721379059929808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language corpora are the foundation of most natural language processing research, yet they often reproduce structural inequalities. One such inequality is gender discrimination in how actors are represented, which can distort analyses and perpetuate discriminatory outcomes. This paper introduces a user-centric, actor-level pipeline for detecting and mitigating gender discrimination in large-scale text corpora. By combining discourse-aware analysis with metrics for sentiment, syntactic agency, and quotation styles, our method enables both fine-grained auditing and exclusion-based balancing. Applied to the taz2024full corpus of German newspaper articles (1980-2024), the pipeline yields a more gender-balanced dataset while preserving core dynamics of the source material. Our findings show that structural asymmetries can be reduced through systematic filtering, though subtler biases in sentiment and framing remain. We release the tools and reports to support further research in discourse-based fairness auditing and equitable corpus construction.
- Abstract(参考訳): 言語コーパスは、ほとんどの自然言語処理研究の基礎であるが、しばしば構造的不平等を再現する。
そのような不平等の1つは、アクターの表現方法における性差別であり、分析を歪め、差別の結果を永続させることができる。
本稿では,大規模テキストコーパスにおける性差別の検出と緩和を目的とした,ユーザ中心のアクターレベルのパイプラインを提案する。
談話認識分析を感情、統語的エージェンシー、引用スタイルのメトリクスと組み合わせることで、細粒度監査と排他的バランスを両立させることができる。
ドイツの新聞記事(1980-2024)のtaz2024fullコーパス(英語版)に適用されたパイプラインは、ソース材料のコアダイナミクスを保ちながら、よりジェンダーバランスのよいデータセットを生成する。
本研究は, 系統的なフィルタリングによって構造的非対称性を低減できることを示すが, 感情やフレーミングの微妙なバイアスは残る。
談話に基づく公正度監査と公平なコーパス構築のさらなる研究を支援するためのツールとレポートをリリースする。
関連論文リスト
- SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2499537119440245]
話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2025-08-11T12:58:37Z) - taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades [0.20971479389679337]
われわれは1980年から2024年にかけてドイツで発行された新聞記事の最大のコーパスであるtaz2024fullを紹介している。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:24:33Z) - Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [17.101242741559428]
本稿では,言語モデルの固有バイアス緩和と測定戦略に焦点を当てる。
我々は、本質的な測定を深く掘り下げ、矛盾を識別し、これらのベンチマークがジェンダーステレオタイプの違いを反映している可能性を示唆している。
本研究は, 言語モデルにおけるジェンダーステレオタイピングの複雑さと, 偏見の検出・低減のための, より洗練された手法を開発するための新たな方向性を指摘するものである。
論文 参考訳(メタデータ) (2025-01-02T09:40:31Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Why Can't Discourse Parsing Generalize? A Thorough Investigation of the
Impact of Data Diversity [10.609715843964263]
標準的な英語ニュースワイヤベンチマークでトレーニングされた最先端アーキテクチャは、十分に一般化されていないことを示す。
学習データにおけるジャンルの多様性の影響を定量化し,テキストタイプへの一般化を実現する。
本研究は,全木におけるクロスコーパスRTT解析の一般化性を評価する最初の試みである。
論文 参考訳(メタデータ) (2023-02-13T16:11:58Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - How to Split: the Effect of Word Segmentation on Gender Bias in Speech
Translation [14.955696163410254]
我々は、自動翻訳におけるジェンダーバイアスの分析を、一見中立的だが重要な要素である単語セグメンテーションに導入する。
2つの言語対(英語/イタリア語/フランス語)で得られた結果は、最先端のサブワード分割(BPE)が、ジェンダーバイアスの増大を犠牲にしていることを示している。
そこで本研究では,BPEの全体的な翻訳品質を向上すると同時に,文字ベースセグメンテーションの能力を活用し,ジェンダーを適切に翻訳する手法を提案する。
論文 参考訳(メタデータ) (2021-05-28T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。