論文の概要: Benchmarking Gender and Political Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.06164v1
- Date: Sun, 07 Sep 2025 18:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.884502
- Title: Benchmarking Gender and Political Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェンダーと政治的バイアスのベンチマーク
- Authors: Jinrui Yang, Xudong Han, Timothy Baldwin,
- Abstract要約: 政治に敏感な文脈で大規模言語モデル(LLM)を評価するための新しいベンチマークであるEuroParlVoteを紹介する。
欧州議会の討論演説を投票結果のロールコールに結び付け、欧州議会(MEP)の各委員の豊かな人口統計メタデータを含む。
EuroParlVoteを用いて、性別分類と投票予測という2つのタスクで最先端のLCMを評価し、一貫したバイアスパターンを明らかにします。
- 参考スコア(独自算出の注目度): 37.192287982246526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EuroParlVote, a novel benchmark for evaluating large language models (LLMs) in politically sensitive contexts. It links European Parliament debate speeches to roll-call vote outcomes and includes rich demographic metadata for each Member of the European Parliament (MEP), such as gender, age, country, and political group. Using EuroParlVote, we evaluate state-of-the-art LLMs on two tasks -- gender classification and vote prediction -- revealing consistent patterns of bias. We find that LLMs frequently misclassify female MEPs as male and demonstrate reduced accuracy when simulating votes for female speakers. Politically, LLMs tend to favor centrist groups while underperforming on both far-left and far-right ones. Proprietary models like GPT-4o outperform open-weight alternatives in terms of both robustness and fairness. We release the EuroParlVote dataset, code, and demo to support future research on fairness and accountability in NLP within political contexts.
- Abstract(参考訳): 政治に敏感な文脈で大規模言語モデル(LLM)を評価するための新しいベンチマークであるEuroParlVoteを紹介する。
欧州議会の討論演説を投票結果のロールコールに結び付け、性別、年齢、国、政治グループなどの欧州議会議員毎の豊かな人口統計メタデータを含む。
EuroParlVoteを用いて、性別分類と投票予測という2つのタスクで最先端のLCMを評価し、一貫したバイアスパターンを明らかにします。
LLMは、女性MEPを男性と誤分類し、女性話者の投票をシミュレートする際の精度を低下させる。
政治的には、LLMは極左と極右の両方で低いパフォーマンスを保ちながら、中心的なグループを好む傾向にある。
GPT-4oのようなプロプライエタリなモデルは、堅牢性と公正性の両方の観点から、オープンウェイトな代替品よりも優れている。
我々は、政治的文脈におけるNLPの公正性と説明責任に関する将来の研究をサポートするために、EuroParlVoteデータセット、コード、デモをリリースする。
関連論文リスト
- Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - Persona-driven Simulation of Voting Behavior in the European Parliament with Large Language Models [3.217354895187878]
限られた情報によるゼロショットペルソナが、個別の投票決定を正確に予測できるかどうかを解析する。
欧州議会議員の投票行動は、重み付けされたF1スコアが約0.793で合理的にシミュレートできることがわかった。
論文 参考訳(メタデータ) (2025-06-13T14:02:21Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Representation Bias in Political Sample Simulations with Large Language Models [54.48283690603358]
本研究は,大規模言語モデルを用いた政治サンプルのシミュレーションにおけるバイアスの同定と定量化を目的とする。
GPT-3.5-Turboモデルを用いて、米国選挙研究、ドイツ縦割り選挙研究、ズオビアオデータセット、中国家族パネル研究のデータを活用する。
論文 参考訳(メタデータ) (2024-07-16T05:52:26Z) - Assessing Political Bias in Large Language Models [0.624709220163167]
我々は、ドイツの有権者の視点から、欧州連合(EU)内の政治問題に関するオープンソースのLarge Language Models(LLMs)の政治的バイアスを評価する。
Llama3-70Bのような大型モデルは、左派政党とより緊密に連携する傾向にあるが、小さなモデルは中立であることが多い。
論文 参考訳(メタデータ) (2024-05-17T15:30:18Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。