論文の概要: Fairness or Fluency? An Investigation into Language Bias of Pairwise LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2601.13649v1
- Date: Tue, 20 Jan 2026 06:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.186379
- Title: Fairness or Fluency? An Investigation into Language Bias of Pairwise LLM-as-a-Judge
- Title(参考訳): フェアネスと頻度 : LLM-as-a-Judgeにおける言語バイアスの検討
- Authors: Xiaolin Zhou, Zheng Luo, Yicheng Gao, Qixuan Chen, Xiyang Hu, Yue Zhao, Ruishan Liu,
- Abstract要約: LLM-as-a-judgeの2種類の言語バイアスについて検討した。
同言語の判断では、言語家族間で大きなパフォーマンス格差があり、ヨーロッパ語はアフリカ語を一貫して上回っている。
言語間判断において、ほとんどのモデルは英語の解答を好んでおり、この選好は質問言語よりも解答言語によって影響される。
- 参考スコア(独自算出の注目度): 9.062065949101001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have incentivized the development of LLM-as-a-judge, an application of LLMs where they are used as judges to decide the quality of a certain piece of text given a certain context. However, previous studies have demonstrated that LLM-as-a-judge can be biased towards different aspects of the judged texts, which often do not align with human preference. One of the identified biases is language bias, which indicates that the decision of LLM-as-a-judge can differ based on the language of the judged texts. In this paper, we study two types of language bias in pairwise LLM-as-a-judge: (1) performance disparity between languages when the judge is prompted to compare options from the same language, and (2) bias towards options written in major languages when the judge is prompted to compare options of two different languages. We find that for same-language judging, there exist significant performance disparities across language families, with European languages consistently outperforming African languages, and this bias is more pronounced in culturally-related subjects. For inter-language judging, we observe that most models favor English answers, and that this preference is influenced more by answer language than question language. Finally, we investigate whether language bias is in fact caused by low-perplexity bias, a previously identified bias of LLM-as-a-judge, and we find that while perplexity is slightly correlated with language bias, language bias cannot be fully explained by perplexity only.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、LLM-as-a-judge(LLM-as-a-judge)の開発にインセンティブを与えている。
しかし、以前の研究では、LLM-as-a-judgeは判断されたテキストの異なる側面に偏りがあることが示されている。
識別されたバイアスの1つは言語バイアスであり、LLM-as-a-judgeの決定は判断されたテキストの言語によって異なる可能性があることを示している。
本稿では,LLM-as-a-judgeにおける2種類の言語バイアスについて検討する。(1) 審査員が同一言語からの選択肢を比較するように促された場合と,(2) 審査員が2つの異なる言語の選択肢を比較するように促された場合の選択肢に対するバイアスである。
同言語で判断すると、ヨーロッパ諸語はアフリカ諸語を常に上回っており、この偏見は文化的に関連のある主題でより顕著である。
言語間判断において、ほとんどのモデルは英語の解答を好んでおり、この選好は質問言語よりも解答言語によって影響される。
最後に, 言語バイアスがLLM-as-a-judgeの既定バイアスである低パープレキシティバイアスによって引き起こされているかを検討した結果, 言語バイアスとわずかに相関しているものの, 言語バイアスはパープレキシティのみによって完全に説明できないことがわかった。
関連論文リスト
- Cross-Language Bias Examination in Large Language Models [37.21579885190632]
本研究では,大規模言語モデルにおけるバイアス評価のための,革新的な多言語バイアス評価フレームワークを提案する。
プロンプトと単語リストを5つの対象言語に翻訳することにより、言語間で異なる種類のバイアスを比較する。
例えば、アラビア語とスペイン語はステレオタイプバイアスのレベルが常に高く、中国語と英語はバイアスのレベルが低い。
論文 参考訳(メタデータ) (2025-12-17T23:22:03Z) - Delving into Multilingual Ethical Bias: The MSQAD with Statistical Hypothesis Tests for Large Language Models [7.480124826347168]
本稿では,世界規模で議論され,潜在的にセンシティブなトピックに対するLLMの倫理的バイアスの妥当性と比較について検討する。
我々は、Human Rights Watchから17のトピックに関するニュース記事を収集し、複数の言語で対応する回答とともに、社会的に敏感な質問を生成した。
我々は2つの統計的仮説テストを用いて、これらの応答のバイアスを言語やトピックにわたって精査した。
論文 参考訳(メタデータ) (2025-05-25T12:25:44Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。