論文の概要: Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
- arxiv url: http://arxiv.org/abs/2509.17701v1
- Date: Mon, 22 Sep 2025 12:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.380869
- Title: Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
- Title(参考訳): バイアスの調査: LLMによる数学問題の生成、解決、評価のための多言語パイプライン
- Authors: Mariam Mahran, Katharina Simbeck,
- Abstract要約: 本稿では,ドイツのK-10カリキュラムに適合する数学問題を生成,解決,評価するための自動多言語パイプラインを提案する。
628の数学演習を生成し、それらを英語、ドイツ語、アラビア語に翻訳しました。
3つの商用LCMが各言語でステップバイステップのソリューションを作成するように促された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for educational support, yet their response quality varies depending on the language of interaction. This paper presents an automated multilingual pipeline for generating, solving, and evaluating math problems aligned with the German K-10 curriculum. We generated 628 math exercises and translated them into English, German, and Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus) were prompted to produce step-by-step solutions in each language. A held-out panel of LLM judges, including Claude 3.5 Haiku, evaluated solution quality using a comparative framework. Results show a consistent gap, with English solutions consistently rated highest, and Arabic often ranked lower. These findings highlight persistent linguistic bias and the need for more equitable multilingual AI systems in education.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます教育支援に使われているが、その応答品質は相互作用の言語によって異なる。
本稿では,ドイツのK-10カリキュラムに適合する数学問題を生成,解決,評価するための自動多言語パイプラインを提案する。
628の数学演習を生成し、それらを英語、ドイツ語、アラビア語に翻訳しました。
3つの商用LCM(GPT-4o-mini、Gemini 2.5 Flash、Qwen-plus)は、各言語でステップバイステップのソリューションを作成するよう促された。
Claude 3.5 Haikuを含むLLM審査員のパネルは、比較フレームワークを使用してソリューションの品質を評価した。
結果は一貫したギャップを示しており、英語の解が常に最高と評価され、アラビア語はしばしば下位にランクされている。
これらの知見は、永続的な言語バイアスと、教育におけるより公平な多言語AIシステムの必要性を浮き彫りにしている。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - Evaluating and Mitigating Linguistic Discrimination in Large Language Models [7.634003893271555]
大規模言語モデル(LLM)は、言語間のトレーニングデータの不均一な分布に起因する言語識別を示す。
類似性に基づく投票方式である LDFighter を提案し,LLM における言語的差別を緩和する。
論文 参考訳(メタデータ) (2024-04-29T09:22:54Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。