論文の概要: Mathematics Isn't Culture-Free: Probing Cultural Gaps via Entity and Scenario Perturbations
- arxiv url: http://arxiv.org/abs/2507.00883v2
- Date: Fri, 31 Oct 2025 06:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.348089
- Title: Mathematics Isn't Culture-Free: Probing Cultural Gaps via Entity and Scenario Perturbations
- Title(参考訳): 数学は文化的自由ではない - エンティティとシナリオの摂動による文化的ギャップの探索
- Authors: Aditya Tomar, Nihar Ranjan Sahoo, Ashish Mittal, Rudra Murthy, Pushpak Bhattacharyya,
- Abstract要約: 我々は,アフリカ,インド,中国,韓国,日本5地域を対象としたGSM8Kテストセットの文化的適応版を作成している。
8Bから72Bパラメータの6つの大言語モデル (LLM) を評価する。
- 参考スコア(独自算出の注目度): 40.515279067334596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although mathematics is often considered culturally neutral, the way mathematical problems are presented can carry implicit cultural context. Existing benchmarks like GSM8K are predominantly rooted in Western norms, including names, currencies, and everyday scenarios. In this work, we create culturally adapted variants of the GSM8K test set for five regions Africa, India, China, Korea, and Japan using prompt-based transformations followed by manual verification. We evaluate six large language models (LLMs), ranging from 8B to 72B parameters, across five prompting strategies to assess their robustness to cultural variation in math problem presentation. Our findings reveal a consistent performance gap: models perform best on the original US-centric dataset and comparatively worse on culturally adapted versions. However, models with reasoning capabilities are more resilient to these shifts, suggesting that deeper reasoning helps bridge cultural presentation gaps in mathematical tasks
- Abstract(参考訳): 数学はしばしば文化的に中立であると考えられているが、数学の問題の提示方法には暗黙の文化的文脈がある。
GSM8Kのような既存のベンチマークは、名前や通貨、日々のシナリオなど、主に西洋標準に根ざしている。
本研究では,アフリカ,インド,中国,韓国,日本5地域を対象としたGSM8Kテストセットの文化的に適応した変種を作成し,その後手動検証を行った。
8Bから72Bパラメータの6つの大言語モデル (LLM) を評価する。
モデルは元々の米国中心のデータセットで最高のパフォーマンスを示し、文化に適応したバージョンでは比較的悪くなります。
しかし、推論能力を持つモデルはこれらのシフトに対してより弾力性があり、より深い推論が数学的タスクにおける文化的プレゼンテーションギャップを橋渡しすることに役立つことを示唆している。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - Culture in Action: Evaluating Text-to-Image Models through Social Activities [40.874302288116304]
テキスト・トゥ・イメージ(T2I)モデルは大規模なWebデータをトレーニングすることで印象的なフォトリアリズムを実現するが、モデルは文化的偏見を継承し、表現不足の地域を忠実に描写することができない。
本稿では,T2Iモデルの評価ベンチマークであるCULTIVateを紹介する。
文化的アライメント,幻覚,誇張された要素,多様性を測定するための4つの指標を提案する。
論文 参考訳(メタデータ) (2025-11-07T19:51:11Z) - Hire Your Anthropologist! Rethinking Culture Benchmarks Through an Anthropological Lens [9.000522371422628]
ベンチマークのフレームカルチャーを分類する4つのフレームワークを紹介します。
20の文化指標を質的に検討し,6つの方法論的問題を同定した。
我々の目標は、静的リコールタスクを超える文化ベンチマークの開発をガイドすることです。
論文 参考訳(メタデータ) (2025-10-07T13:42:44Z) - Everyday Physics in Korean Contexts: A Culturally Grounded Physical Reasoning Benchmark [12.080497081698299]
既存の物理コモンセンス推論ベンチマークは、主に西洋の文脈に焦点を当て、物理的な問題解決の文化的バリエーションを見下ろしている。
EPiK(Everyday Physics in Korean Contexts)は、韓国の文化的文脈における物理的推論をテストする181のバイナリ選択問題からなる新しいベンチマークである。
EPiKは2段階生成および検証パイプラインを使用して構築され、文化的にオーセンティックな問題を生成する。
論文 参考訳(メタデータ) (2025-09-22T14:01:14Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [25.213316704661352]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。
視覚的文脈は一般的に翻訳の質を向上し、特に文化特色項目(CSI)を扱い、性別の使い方を正す。
論文 参考訳(メタデータ) (2025-05-30T10:42:44Z) - Fluent but Culturally Distant: Can Regional Training Teach Cultural Understanding? [17.231806929840015]
我々は,5つの指標と5つのグローバルLLMを,価値と実践の2つの重要な側面に沿って評価する。
すべての4つのタスクにおいて、Indicモデルはグローバルモデルよりもインド文化の規範と密に一致していないことが分かる。
この失敗は、高品質で、翻訳されず、文化的に根拠のない事前訓練と微調整のデータが不足していることに遡る。
論文 参考訳(メタデータ) (2025-05-25T01:59:23Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts? [0.7329170469548214]
本研究では,Large Language Models (LLMs) の数学的推論能力に対する文化的文脈の影響を明らかにする。
この結果から, LLMは, 基礎となる数学的構造が一定であっても, 文化的参照が変化しても数学問題に苦しむことが明らかとなった。
明確な数学的訓練を持たないモデルであっても、関連する文化的文脈への露出は、文化的に埋め込まれた数学問題において、より大きく、数学的に熟練したモデルよりも優れることがある。
論文 参考訳(メタデータ) (2025-03-23T10:35:39Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。