論文の概要: taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades
- arxiv url: http://arxiv.org/abs/2506.05388v1
- Date: Tue, 03 Jun 2025 16:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.117149
- Title: taz2024full: Analysing German Newspapers for Gender Bias and Discrimination across Decades
- Title(参考訳): taz2024full:独新聞の分析と十年にわたる差別
- Authors: Stefanie Urchs, Veronika Thurner, Matthias Aßenmacher, Christian Heumann, Stephanie Thiemichen,
- Abstract要約: われわれは1980年から2024年にかけてドイツで発行された新聞記事の最大のコーパスであるtaz2024fullを紹介している。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-access corpora are essential for advancing natural language processing (NLP) and computational social science (CSS). However, large-scale resources for German remain limited, restricting research on linguistic trends and societal issues such as gender bias. We present taz2024full, the largest publicly available corpus of German newspaper articles to date, comprising over 1.8 million texts from taz, spanning 1980 to 2024. As a demonstration of the corpus's utility for bias and discrimination research, we analyse gender representation across four decades of reporting. We find a consistent overrepresentation of men, but also a gradual shift toward more balanced coverage in recent years. Using a scalable, structured analysis pipeline, we provide a foundation for studying actor mentions, sentiment, and linguistic framing in German journalistic texts. The corpus supports a wide range of applications, from diachronic language analysis to critical media studies, and is freely available to foster inclusive and reproducible research in German-language NLP.
- Abstract(参考訳): オープンアクセスコーパスは自然言語処理(NLP)と計算社会科学(CSS)の進歩に不可欠である。
しかし、ドイツの大規模な資源は限定的であり、言語的傾向やジェンダーバイアスのような社会問題の研究を制限している。
われわれは、1980年から2024年にかけて、タズから180万通以上のテキストからなる、ドイツの新聞記事の最大公開コーパスであるtaz2024fullを提示する。
偏見と差別研究のためのコーパスの有用性の実証として、私たちは40年間の報告を通して性別の表現を分析した。
我々は、男性を一貫して過剰に表現する一方で、近年はよりバランスのとれたカバレッジへと徐々にシフトしている。
スケーラブルで構造化された分析パイプラインを用いて、ドイツのジャーナリストのテキストでアクターの言及、感情、言語的フレーミングを研究する基盤を提供する。
コーパスは、ダイアクロニック言語分析から批判的メディア研究まで幅広い応用をサポートしており、ドイツ語のNLPにおける包括的で再現可能な研究を促進するために自由に利用できる。
関連論文リスト
- Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language [21.87606488958834]
大規模言語モデル(LLM)における性別バイアス評価のためのドイツの5つのデータセットを提案する。
データセットは、ジェンダーバイアスというよく確立された概念に基づいており、複数の方法論を通してアクセス可能である。
8種類の多言語 LLM モデルで報告された本研究は,ドイツ語の性差にかかわる独特な課題を明らかにした。
論文 参考訳(メタデータ) (2025-07-22T13:09:41Z) - Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - GATE X-E : A Challenge Set for Gender-Fair Translations from
Weakly-Gendered Languages [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-4で構築した翻訳性書換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2024-02-22T04:36:14Z) - Less than one percent of words would be affected by gender-inclusive
language in German press texts [43.16629507708997]
平均して、すべてのトークンの1%以下は、ジェンダー非包摂的言語に影響されることが示されている。
この小さな割合は、ジェンダーを包含するドイツ語が言語を理解し学習する上で大きな障壁となるかどうかに疑問を呈している。
論文 参考訳(メタデータ) (2024-02-06T10:32:34Z) - Evaluating Gender Bias in the Translation of Gender-Neutral Languages
into English [0.0]
我々は、トルコ語、ハンガリー語、フィンランド語、ペルシア語から英語への翻訳からなるGATEコーパスの拡張であるGATE X-Eを紹介する。
このデータセットは、幅広い文の長さと領域を持つ自然文を特徴とし、様々な言語現象に関する翻訳書き直しに挑戦する。
GPT-3.5 Turbo上に構築された英語のジェンダー書き換えソリューションをGATE X-Eを用いて評価する。
論文 参考訳(メタデータ) (2023-11-15T10:25:14Z) - Bias at a Second Glance: A Deep Dive into Bias for German Educational
Peer-Review Data Modeling [10.080007569933331]
我々は5年間で9,165人のドイツのピアレビューのコーパスで、テキストと複数のアーキテクチャ間のバイアスを分析します。
収集したコーパスは, 共起解析やGloVe埋め込みにおいて多くのバイアスを示さない。
事前訓練されたドイツの言語モデルは、実質的な概念的、人種的、性別的偏見を見出す。
論文 参考訳(メタデータ) (2022-09-21T13:08:16Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。