論文の概要: Common to Whom? Regional Cultural Commonsense and LLM Bias in India
- arxiv url: http://arxiv.org/abs/2601.15550v1
- Date: Thu, 22 Jan 2026 00:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.455949
- Title: Common to Whom? Regional Cultural Commonsense and LLM Bias in India
- Title(参考訳): インドにおける地域文化常識とLLMバイアス
- Authors: Sangmitra Madhusudan, Trush Shashank More, Steph Buongiorno, Renata Dividino, Jad Kabbara, Ali Emami,
- Abstract要約: この問題に対処する LLM の能力をテストするために設計された最初のベンチマークである Indica を紹介する。
日常生活の8つの領域にまたがる515の質問に対して、5つのインド地域から人手による回答を収集する。
わずか39.4%の質問が5つの地域全てで合意を提示している。
- 参考スコア(独自算出の注目度): 15.897268984598043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing cultural commonsense benchmarks treat nations as monolithic, assuming uniform practices within national boundaries. But does cultural commonsense hold uniformly within a nation, or does it vary at the sub-national level? We introduce Indica, the first benchmark designed to test LLMs' ability to address this question, focusing on India - a nation of 28 states, 8 union territories, and 22 official languages. We collect human-annotated answers from five Indian regions (North, South, East, West, and Central) across 515 questions spanning 8 domains of everyday life, yielding 1,630 region-specific question-answer pairs. Strikingly, only 39.4% of questions elicit agreement across all five regions, demonstrating that cultural commonsense in India is predominantly regional, not national. We evaluate eight state-of-the-art LLMs and find two critical gaps: models achieve only 13.4%-20.9% accuracy on region-specific questions, and they exhibit geographic bias, over-selecting Central and North India as the "default" (selected 30-40% more often than expected) while under-representing East and West. Beyond India, our methodology provides a generalizable framework for evaluating cultural commonsense in any culturally heterogeneous nation, from question design grounded in anthropological taxonomy, to regional data collection, to bias measurement.
- Abstract(参考訳): 既存の文化的コモンセンスベンチマークでは、国家の境界内での統一的な慣行を前提として、国家をモノリシック(モノリシック)として扱う。
しかし、文化常識は国家内で均一に保持されるのか、それともサブ国家レベルで異なるのか?
LLMがこの問題に対処する能力をテストするために設計された最初のベンチマークであるIndicaは、28の州、8の組合領、22の公用語からなるインドに焦点を当てている。
北・南・東・西・中央の5つのインド地域から、日常生活の8つの領域にまたがる515の質問に対して、人間による回答を収集し、1,630の質問応答対を得た。
興味深いことに、インドにおける文化的常識が主に地域的であり、国民的ではないことを示すため、5つの地域全てで合意を提示する質問は39.4%に過ぎなかった。
モデルは地域固有の質問に対してわずか13.4%-20.9%の精度しか達成せず、地理的偏見を示し、中央インドと北インドを「デフォルト」(予想よりも30~40%高い頻度で選択)として表現し、東インドと西インドを下限に表現している。
インド以外では、人類学的分類学に基づく質問デザインから地域データ収集、バイアス測定まで、あらゆる文化的に異質な国の文化的常識を評価するための一般化可能な枠組みを提供する。
関連論文リスト
- Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures [117.95352635059153]
我々は100以上の言語を対象とした参加型コモンセンス推論ベンチマークであるGlobal PIQAを提案する。
グローバルPIQAの116の言語変種は、5つの大陸、14の言語族、23の文字体系をカバーしている。
グローバルPIQAの非並列分割では、50%以上の例が地元の食品、習慣、伝統、その他の文化的特有な要素を参照している。
論文 参考訳(メタデータ) (2025-10-28T05:46:25Z) - DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context [7.582991335459645]
大規模言語モデル(LLM)は様々なタスクやアプリケーションで広く使われている。
文化的な知識や能力の欠如により、文化的な整合性が欠如していることが示されている。
インド文化のための新しいCSIデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-09-22T06:58:02Z) - FairI Tales: Evaluation of Fairness in Indian Contexts with a Focus on Bias and Stereotypes [23.71105683137539]
フェアネスに関する既存の研究は、主に西洋に焦点を絞っており、インドのような文化的に多様な国では不十分である。
インドを中心とした総合的なベンチマークであるINDIC-BIASを導入し,85の社会アイデンティティグループを対象としたLCMの公平性を評価する。
論文 参考訳(メタデータ) (2025-06-29T06:31:06Z) - Fluent but Foreign: Even Regional LLMs Lack Cultural Alignment [24.871503011248777]
大規模な言語モデル(LLM)は世界中で使用されているが、西洋文化の傾向を示す。
我々は,6つの指標と6つのグローバルLLMを2次元(値とプラクティス)で評価する。
タスク全体では、Indicモデルはグローバルモデルよりもインド標準とよく一致しない。
論文 参考訳(メタデータ) (2025-05-25T01:59:23Z) - CulturalBench: A Robust, Diverse, and Challenging Cultural Benchmark by Human-AI CulturalTeaming [75.82306181299153]
カルチャーベンチ(CulturalBench)は、LMの文化的知識を評価するための1,696の人文・人文的な質問である。
バングラデシュ、ジンバブエ、ペルーなど45の地域をカバーしている。
我々はHuman-AI Red-Teamingにインスパイアされた手法を用いてCulturalBenchを構築した。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models [67.38144169029617]
我々は,75か国から1500人の多様な参加者の社会デマトグラフィーを,21大言語モデル(LLM)を用いた8,011のライブ会話において,文脈的嗜好ときめ細かいフィードバックにマッピングした。
PRISMでは、(i)より広い地理的・人口的なフィードバックへの参加、(ii)2つの国(UK, US)の国勢調査表現型サンプル、(iii)詳細な参加者プロファイルにリンクし、個人化とサンプルアーティファクトの帰属を許可する個別評価に寄与する。
我々はPRISMを3つのケーススタディで使用し、人間がどのアライメントデータを提供するかを慎重に検討する必要があることを示す。
論文 参考訳(メタデータ) (2024-04-24T17:51:36Z) - IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces [28.21857463550941]
本稿では,言語モデル推論能力に対する地理的要因の影響を理解することを目的としたIndoCultureを紹介する。
地元住民には、事前に定義されたトピックのセットを通じて、文化的コンテキストと妥当な選択肢を手作業で開発するように求めます。
オープンウェイトLlama-3はGPT-4と競合するが、他のオープンウェイトモデルは50%以下で苦戦している。
論文 参考訳(メタデータ) (2024-04-02T11:32:58Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。