論文の概要: Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
- arxiv url: http://arxiv.org/abs/2503.18018v1
- Date: Sun, 23 Mar 2025 10:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:18.206909
- Title: Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
- Title(参考訳): 文化翻訳における損失:LLMは文化的文脈にまたがって数学をゆがめるのか?
- Authors: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar,
- Abstract要約: 本研究では,Large Language Models (LLMs) の数学的推論能力に対する文化的文脈の影響を明らかにする。
この結果から, LLMは, 基礎となる数学的構造が一定であっても, 文化的参照が変化しても数学問題に苦しむことが明らかとなった。
明確な数学的訓練を持たないモデルであっても、関連する文化的文脈への露出は、文化的に埋め込まれた数学問題において、より大きく、数学的に熟練したモデルよりも優れることがある。
- 参考スコア(独自算出の注目度): 0.7329170469548214
- License:
- Abstract: Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にコーディング、数学的推論、論理的問題解決など、様々な分野において大きく進歩している。
しかし、これらの数学的推論能力は、LLMが文化的に適応した数学問題で表されるときに持続するだろうか?
特に、LLMは、メインストリームのWebスケールAIトレーニングデータに有意な表現を持たない文化的な文脈に埋め込まれた数学的な問題に直面したとき、どのように機能するのか?
そこで我々は,LSMの数学的推論能力を評価するために広く利用されているベンチマークであるGSM8Kから,合成文化データセットを6つ生成した。
元のGSM8Kテストセットの数学的論理と数値を保存しながら、個人名、食品、地名などの文化的要素を変更する。
これらの文化に適応したデータセットは、文化的文脈の変化の下でLLMの数学的推論を評価するためのより信頼性の高いフレームワークを提供する。
この結果から, LLMは, 基礎となる数学的構造が一定であっても, 文化的参照が変化しても数学問題に苦しむことが明らかとなった。
より小さなモデルでは、より大きなモデルに比べてパフォーマンスが低下する。
興味深いことに、我々の研究結果は、文化的親しみが数学的推論を高めることを示唆している。
明確な数学的訓練を持たないモデルであっても、関連する文化的文脈への露出は、文化的に埋め込まれた数学問題において、より大きく、数学的に熟練したモデルよりも優れることがある。
本研究は, LLMの数学的推論能力に対する文化的文脈の影響を強調し, 実世界の応用におけるロバスト性向上のために, より多様で代表的なトレーニングデータの必要性を強調した。
結果の再現のためのベンチマークデータセットとスクリプトはhttps://github.com/akarim23131/Lost_in_Cultural_Translationで公開されている。
関連論文リスト
- MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。