論文の概要: Regional Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.16349v1
- Date: Thu, 22 Jan 2026 22:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.423438
- Title: Regional Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける地域バイアス
- Authors: M P V S Gopinadh, Kappara Lakshmi Sindhu, Soma Sekhar Pandu Ranga Raju P, Yesaswini Swarna,
- Abstract要約: 大規模言語モデル(LLM)における地域バイアスは、AIの公平性とグローバルな表現において、新たな関心事となっている。
我々は、文脈的に中立なシナリオ下での領域間の強制選択決定を探索するプロンプトを用いて、10の著名なLCMを評価した。
FAZEは,地域バイアスを10点尺度で測定し,高いスコアは特定の地域を優先する傾向が強いことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates regional bias in large language models (LLMs), an emerging concern in AI fairness and global representation. We evaluate ten prominent LLMs: GPT-3.5, GPT-4o, Gemini 1.5 Flash, Gemini 1.0 Pro, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3, Gemma 7B, Mistral 7B, and Vicuna-13B using a dataset of 100 carefully designed prompts that probe forced-choice decisions between regions under contextually neutral scenarios. We introduce FAZE, a prompt-based evaluation framework that measures regional bias on a 10-point scale, where higher scores indicate a stronger tendency to favor specific regions. Experimental results reveal substantial variation in bias levels across models, with GPT-3.5 exhibiting the highest bias score (9.5) and Claude 3.5 Sonnet scoring the lowest (2.5). These findings indicate that regional bias can meaningfully undermine the reliability, fairness, and inclusivity of LLM outputs in real-world, cross-cultural applications. This work contributes to AI fairness research by highlighting the importance of inclusive evaluation frameworks and systematic approaches for identifying and mitigating geographic biases in language models.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)における地域バイアスについて検討する。
GPT-3.5, GPT-4o, Gemini 1.5 Flash, Gemini 1.0 Pro, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3, Gemma 7B, Mistral 7B, Vicuna-13Bの10つの著名なLCMを評価する。
FAZEは,地域バイアスを10点尺度で測定し,高いスコアは特定の地域を優先する傾向が強いことを示す。
GPT-3.5は最高バイアススコア(9.5)、Claude 3.5 Sonnetは最低バイアススコア2.5)である。
これらの結果から, 地域バイアスは実世界, 異文化的応用において, LLM出力の信頼性, 公平性, 傾斜性を著しく損なう可能性が示唆された。
この研究は、言語モデルにおける地理的バイアスを特定し緩和するための包括的評価フレームワークと体系的なアプローチの重要性を強調することで、AIフェアネス研究に貢献している。
関連論文リスト
- HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models [1.141545154221656]
EvalMORAALは20の大規模言語モデルにおいてモラルアライメントを評価する透過的なチェーン・オブ・シントフレームワークである。
世界価値調査(55か国、19か国)とPEWグローバル姿勢調査(39か国、8か国)のモデルを評価する。
論文 参考訳(メタデータ) (2025-10-07T13:52:16Z) - An Empirical Analysis on Large Language Models in Debate Evaluation [10.677407097411768]
GPT-3.5 や GPT-4 のような先進大言語モデル (LLM) の機能と固有バイアスを議論評価の文脈で検討する。
GPT-3.5 と GPT-4 の両者に一貫した偏りがみられた。
また, GPT-3.5 および GPT-4 の語彙バイアスも明らかにした。
論文 参考訳(メタデータ) (2024-05-28T18:34:53Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Global-Liar: Factuality of LLMs over Time and Geographic Regions [3.715487408753612]
本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルにおける実測精度, 安定性, バイアスを評価する。
地理的および時間的表現の観点から一意にバランスのとれたデータセットである「Global-Liar」を導入する。
論文 参考訳(メタデータ) (2024-01-31T13:57:24Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - HERB: Measuring Hierarchical Regional Bias in Pre-trained Language
Models [33.0987914452712]
言語モデル(LM)における地域バイアスは、長年の世界的な差別問題である。
本稿では,事前学習した言語モデルから得られた地域バイアスを分析し,そのギャップを埋める。
本研究では,HyErarchical Regional Bias Evaluation法(HERB)を提案する。
論文 参考訳(メタデータ) (2022-11-05T11:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。