論文の概要: The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities
- arxiv url: http://arxiv.org/abs/2508.05525v1
- Date: Thu, 07 Aug 2025 15:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.945659
- Title: The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities
- Title(参考訳): LLMによる世界:地理起源がLLMの実体推論能力にどのように影響するか
- Authors: Harsh Nishant Lalai, Raj Sanjay Shah, Jiaxin Pei, Sashank Varma, Yi-Chia Wang, Ali Emami,
- Abstract要約: 大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。
我々は、モデルが積極的に質問するときにどのように振る舞うかを研究する。
マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
- 参考スコア(独自算出の注目度): 12.46765303763981
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have been extensively tuned to mitigate explicit biases, yet they often exhibit subtle implicit biases rooted in their pre-training data. Rather than directly probing LLMs with human-crafted questions that may trigger guardrails, we propose studying how models behave when they proactively ask questions themselves. The 20 Questions game, a multi-turn deduction task, serves as an ideal testbed for this purpose. We systematically evaluate geographic performance disparities in entity deduction using a new dataset, Geo20Q+, consisting of both notable people and culturally significant objects (e.g., foods, landmarks, animals) from diverse regions. We test popular LLMs across two gameplay configurations (canonical 20-question and unlimited turns) and in seven languages (English, Hindi, Mandarin, Japanese, French, Spanish, and Turkish). Our results reveal geographic disparities: LLMs are substantially more successful at deducing entities from the Global North than the Global South, and the Global West than the Global East. While Wikipedia pageviews and pre-training corpus frequency correlate mildly with performance, they fail to fully explain these disparities. Notably, the language in which the game is played has minimal impact on performance gaps. These findings demonstrate the value of creative, free-form evaluation frameworks for uncovering subtle biases in LLMs that remain hidden in standard prompting setups. By analyzing how models initiate and pursue reasoning goals over multiple turns, we find geographic and cultural disparities embedded in their reasoning processes. We release the dataset (Geo20Q+) and code at https://sites.google.com/view/llmbias20q/home.
- Abstract(参考訳): 大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。
LLMを人為的な質問で直接探すのではなく、モデルが積極的に質問するときにどのように振る舞うかを研究する。
マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
新しいデータセットGeo20Q+を用いて,多様な地域から,文化的に重要な対象(食品,ランドマーク,動物など)を抽出し,実体推論における地理的な性能格差を系統的に評価した。
2つのゲームプレイ構成(カノニカル20クエスト、無制限ターン)と7つの言語(英語、ヒンディー語、マンダリン語、日本語、フランス語、スペイン語、トルコ語)でLLMをテストします。
LLMは、グローバル・サウスよりもグローバル・ノースから、グローバル・イーストよりもグローバル・ウェストから実体を引き出すことに成功しています。
ウィキペディアのページビューと事前学習コーパスの頻度はパフォーマンスと軽度に相関するが、これらの格差を完全に説明できなかった。
特に、ゲームがプレイされる言語は、パフォーマンスのギャップに最小限の影響を与える。
これらの結果は、標準のプロンプト設定に隠されたLLMの微妙なバイアスを明らかにするための、創造的で自由な評価フレームワークの価値を示している。
モデルがどのようにして複数のターンで推論目標を導出し、追求するかを分析することで、その推論プロセスに地理的および文化的格差が組み込まれているのを見つける。
データセット(Geo20Q+)とコードをhttps://sites.google.com/view/llmbias20q/homeでリリースしています。
関連論文リスト
- Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Geographical Erasure in Language Generation [13.219867587151986]
我々は、言語モデルが特定の国を過小評価する、地理的消去の一形態を研究し、運用する。
その結果, 減退は, トレーニングコーパスで言及される国の言及頻度の低さと強く相関していることが判明した。
我々は、カスタムな目的を用いて微調整により消去を緩和する。
論文 参考訳(メタデータ) (2023-10-23T10:26:14Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models [40.61046400448044]
大規模言語モデル (LLM) では, 異なる言語を問うと, 地理的知識が不整合に記憶されることが示されている。
対象とするケーススタディとして、本質的に議論の的かつ多言語的な課題である領土紛争を考察する。
本稿では,様々な言語における応答のバイアスと一貫性を正確に定量化するための評価指標を提案する。
論文 参考訳(メタデータ) (2023-05-24T01:16:17Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。