論文の概要: Assessing the Political Fairness of Multilingual LLMs: A Case Study based on a 21-way Multiparallel EuroParl Dataset
- arxiv url: http://arxiv.org/abs/2510.20508v1
- Date: Thu, 23 Oct 2025 12:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.922444
- Title: Assessing the Political Fairness of Multilingual LLMs: A Case Study based on a 21-way Multiparallel EuroParl Dataset
- Title(参考訳): マルチリンガルLLMの政治的公正性を評価する:21ウェイマルチパラレルEuroParlデータセットに基づくケーススタディ
- Authors: Paul Lerner, François Yvon,
- Abstract要約: この研究は、EPの議会手続きであるEuroParlの新しい21ウェイマルチパラレルバージョンによって実現されている。
データセットは、合計で4000万語、249万文字の150万文で構成されている。
3年間、1000人以上の講演者、7カ国、12のEU加盟国、25のEU委員会、数百の国民政党をカバーしている。
- 参考スコア(独自算出の注目度): 19.75260643083416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The political biases of Large Language Models (LLMs) are usually assessed by simulating their answers to English surveys. In this work, we propose an alternative framing of political biases, relying on principles of fairness in multilingual translation. We systematically compare the translation quality of speeches in the European Parliament (EP), observing systematic differences with majority parties from left, center, and right being better translated than outsider parties. This study is made possible by a new, 21-way multiparallel version of EuroParl, the parliamentary proceedings of the EP, which includes the political affiliations of each speaker. The dataset consists of 1.5M sentences for a total of 40M words and 249M characters. It covers three years, 1000+ speakers, 7 countries, 12 EU parties, 25 EU committees, and hundreds of national parties.
- Abstract(参考訳): LLM(Large Language Models)の政治的偏見は、通常、英語の調査に対する回答をシミュレートすることによって評価される。
本研究では,多言語翻訳における公平性の原理に依拠して,政治的偏見の代替的枠組みを提案する。
我々は、欧州議会(EP)におけるスピーチの翻訳品質を体系的に比較し、左派、中央派、右派の多数派との系統的な差異を、外部の政党よりもよく翻訳されていることを観察した。
この研究は、EPの議会手続きであるEuroParlの21方向のマルチパラレル版によって可能となり、各話者の政治的提携を含んでいる。
データセットは、合計で4000万語、249万文字の150万文で構成されている。
3年間、1000人以上の講演者、7カ国、12のEU加盟国、25のEU委員会、数百の国民政党をカバーしている。
関連論文リスト
- SpeakGer: A meta-data enriched speech corpus of German state and federal parliaments [0.12277343096128711]
SpeakGerデータセットは、1947年から2023年までのドイツ連邦議会とドイツ連邦議会の16州すべてからの議論で構成されている。
このデータセットには、聴衆からのスピーチに対する反応と、講演者のパーティー、年齢、選挙区、政党の政治的アライメントに関する情報という形で、豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2024-10-23T14:00:48Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings [0.0]
そこで本論文では,感傷的に手動で注釈付けした7言語による文のトレーニングデータセットを提案する。
さらに、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介する。
論文 参考訳(メタデータ) (2023-09-18T14:01:06Z) - Multi-aspect Multilingual and Cross-lingual Parliamentary Speech
Analysis [1.759288298635146]
我々は,2017年から2020年にかけての6つの国民議会の合同および比較分析に先進的NLP法を適用した。
ParlaMintデータセットコレクションからテキスト中の感情と感情を分析します。
その結果, 分析国間での共通点や, 意外な相違点が認められた。
論文 参考訳(メタデータ) (2022-07-03T14:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。