論文の概要: Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study
- arxiv url: http://arxiv.org/abs/2602.06371v1
- Date: Fri, 06 Feb 2026 03:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.229468
- Title: Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study
- Title(参考訳): 大型言語モデルにおけるバイリンガルバイアス : 台湾の独自性ベンチマーク研究
- Authors: Ju-Chun Ko,
- Abstract要約: 大規模言語モデル(LLM)は、多言語的文脈においてますます展開されているが、政治的に敏感なトピックに関する言語間の一貫性はまだ検討されていない。
本稿では,中国(台湾)の主権に関する質問に対して,中国語と英語で質問した17のLSMがどのように反応するかを,体系的なベンチマークで検討する。
我々は、重要な言語バイアス、すなわち、同じモデルがクエリ言語によって実質的に異なる政治的スタンスを生み出す現象を発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in multilingual contexts, yet their consistency across languages on politically sensitive topics remains understudied. This paper presents a systematic bilingual benchmark study examining how 17 LLMs respond to questions concerning the sovereignty of the Republic of China (Taiwan) when queried in Chinese versus English. We discover significant language bias -- the phenomenon where the same model produces substantively different political stances depending on the query language. Our findings reveal that 15 out of 17 tested models exhibit measurable language bias, with Chinese-origin models showing particularly severe issues including complete refusal to answer or explicit propagation of Chinese Communist Party (CCP) narratives. Notably, only GPT-4o Mini achieves a perfect 10/10 score in both languages. We propose novel metrics for quantifying language bias and consistency, including the Language Bias Score (LBS) and Quality-Adjusted Consistency (QAC). Our benchmark and evaluation framework are open-sourced to enable reproducibility and community extension.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多言語的文脈においてますます展開されているが、政治的に敏感なトピックに関する言語間の一貫性はまだ検討されていない。
本稿では,中国語と英語を問うと,大韓民国(台湾)の主権に関する質問に対して17のLLMがどのように反応するかを,体系的なバイリンガル・ベンチマークで検証した。
我々は、重要な言語バイアス、すなわち、同じモデルがクエリ言語によって実質的に異なる政治的スタンスを生み出す現象を発見した。
調査の結果,17モデル中15モデルが言語バイアスを示し,中国共産党(CCP)の物語への回答や明示的な伝播を完全に拒否するなど,特に深刻な問題を示した。
特に、GPT-4o Miniだけが両方の言語で10/10のスコアを達成している。
本稿では,LBS(Language Bias Score)やQAC(Quality-Adjusted Consistency)など,言語のバイアスと一貫性を定量化する新たな指標を提案する。
我々のベンチマークと評価フレームワークは、再現性とコミュニティの拡張を可能にするためにオープンソース化されている。
関連論文リスト
- Cross-Language Bias Examination in Large Language Models [37.21579885190632]
本研究では,大規模言語モデルにおけるバイアス評価のための,革新的な多言語バイアス評価フレームワークを提案する。
プロンプトと単語リストを5つの対象言語に翻訳することにより、言語間で異なる種類のバイアスを比較する。
例えば、アラビア語とスペイン語はステレオタイプバイアスのレベルが常に高く、中国語と英語はバイアスのレベルが低い。
論文 参考訳(メタデータ) (2025-12-17T23:22:03Z) - Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。
8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。
モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文 参考訳(メタデータ) (2025-09-17T12:58:18Z) - Delving into Multilingual Ethical Bias: The MSQAD with Statistical Hypothesis Tests for Large Language Models [7.480124826347168]
本稿では,世界規模で議論され,潜在的にセンシティブなトピックに対するLLMの倫理的バイアスの妥当性と比較について検討する。
我々は、Human Rights Watchから17のトピックに関するニュース記事を収集し、複数の言語で対応する回答とともに、社会的に敏感な質問を生成した。
我々は2つの統計的仮説テストを用いて、これらの応答のバイアスを言語やトピックにわたって精査した。
論文 参考訳(メタデータ) (2025-05-25T12:25:44Z) - Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - Mapping Geopolitical Bias in 11 Large Language Models: A Bilingual, Dual-Framing Analysis of U.S.-China Tensions [2.8202443616982884]
本研究は,11大言語モデル(LLM)における地政学的バイアスを系統的に解析する。
モデル出力のイデオロギー的傾きを検出するために,19,712個のプロンプトを作成した。
米国をベースとしたモデルは、主に米国支持の姿勢を好んでおり、一方中国のモデルでは、中国支持の偏見が顕著であった。
論文 参考訳(メタデータ) (2025-03-31T03:38:17Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。