論文の概要: taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades
- arxiv url: http://arxiv.org/abs/2506.05388v1
- Date: Tue, 03 Jun 2025 16:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.117149
- Title: taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades
- Title(参考訳): taz2024full:独新聞の分析と十年にわたる差別
- Authors: Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen,
- Abstract要約: われわれは1980年から2024年にかけてドイツで発行された新聞記事の最大のコーパスであるtaz2024fullを紹介している。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-access corpora are essential for advancing natural language processing (NLP) and computational social science (CSS). However, large-scale resources for German remain limited, restricting research on linguistic trends and societal issues such as gender bias. We present taz2024full, the largest publicly available corpus of German newspaper articles to date, comprising over 1.8 million texts from taz, spanning 1980 to 2024. As a demonstration of the corpus's utility for bias and discrimination research, we analyse gender representation across four decades of reporting. We find a consistent overrepresentation of men, but also a gradual shift toward more balanced coverage in recent years. Using a scalable, structured analysis pipeline, we provide a foundation for studying actor mentions, sentiment, and linguistic framing in German journalistic texts. The corpus supports a wide range of applications, from diachronic language analysis to critical media studies, and is freely available to foster inclusive and reproducible research in German-language NLP.
- Abstract(参考訳): オープンアクセスコーパスは自然言語処理(NLP)と計算社会科学(CSS)の進歩に不可欠である。
しかし、ドイツの大規模な資源は限定的であり、言語的傾向やジェンダーバイアスのような社会問題の研究を制限している。
われわれは、1980年から2024年にかけて、タズから180万通以上のテキストからなる、ドイツの新聞記事の最大公開コーパスであるtaz2024fullを提示する。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
我々は、男性を一貫して過剰に表現する一方で、近年はよりバランスのとれたカバレッジへと徐々にシフトしている。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
コーパスは、ダイアクロニック言語分析から批判的メディア研究まで幅広い応用をサポートしており、ドイツ語のNLPにおける包括的で再現可能な研究を促進するために自由に利用できる。
関連論文リスト
- Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - GATE X-E : A Challenge Set for Gender-Fair Translations from
Weakly-Gendered Languages [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-4で構築した翻訳性書換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2024-02-22T04:36:14Z) - Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。