論文の概要: Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
- arxiv url: http://arxiv.org/abs/2509.17701v1
- Date: Mon, 22 Sep 2025 12:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.380869
- Title: Investigating Bias: A Multilingual Pipeline for Generating, Solving, and Evaluating Math Problems with LLMs
- Title(参考訳): バイアスの調査: LLMによる数学問題の生成、解決、評価のための多言語パイプライン
- Authors: Mariam Mahran, Katharina Simbeck,
- Abstract要約: 本稿では,ドイツのK-10カリキュラムに適合する数学問題を生成,解決,評価するための自動多言語パイプラインを提案する。
628の数学演習を生成し、それらを英語、ドイツ語、アラビア語に翻訳しました。
3つの商用LCMが各言語でステップバイステップのソリューションを作成するように促された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for educational support, yet their response quality varies depending on the language of interaction. This paper presents an automated multilingual pipeline for generating, solving, and evaluating math problems aligned with the German K-10 curriculum. We generated 628 math exercises and translated them into English, German, and Arabic. Three commercial LLMs (GPT-4o-mini, Gemini 2.5 Flash, and Qwen-plus) were prompted to produce step-by-step solutions in each language. A held-out panel of LLM judges, including Claude 3.5 Haiku, evaluated solution quality using a comparative framework. Results show a consistent gap, with English solutions consistently rated highest, and Arabic often ranked lower. These findings highlight persistent linguistic bias and the need for more equitable multilingual AI systems in education.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます教育支援に使われているが、その応答品質は相互作用の言語によって異なる。
本稿では,ドイツのK-10カリキュラムに適合する数学問題を生成,解決,評価するための自動多言語パイプラインを提案する。
628の数学演習を生成し、それらを英語、ドイツ語、アラビア語に翻訳しました。
3つの商用LCM(GPT-4o-mini、Gemini 2.5 Flash、Qwen-plus)は、各言語でステップバイステップのソリューションを作成するよう促された。
Claude 3.5 Haikuを含むLLM審査員のパネルは、比較フレームワークを使用してソリューションの品質を評価した。
結果は一貫したギャップを示しており、英語の解が常に最高と評価され、アラビア語はしばしば下位にランクされている。
これらの知見は、永続的な言語バイアスと、教育におけるより公平な多言語AIシステムの必要性を浮き彫りにしている。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - Simulating LLM-to-LLM Tutoring for Multilingual Math Feedback [11.889826908536941]
大規模言語モデル(LLM)を用いた多言語チューター-学生間相互作用の大規模シミュレーションについて述べる。
より強いモデルは教師の役割を担い、ヒントの形でフィードバックを生成し、弱いモデルは生徒をシミュレートする。
本研究では,学生の入力言語,教師のフィードバック言語,モデル選択,言語資源レベルがパフォーマンスにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-06-05T11:53:04Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Evaluating and Mitigating Linguistic Discrimination in Large Language Models [7.634003893271555]
大規模言語モデル(LLM)は、言語間のトレーニングデータの不均一な分布に起因する言語識別を示す。
類似性に基づく投票方式である LDFighter を提案し,LLM における言語的差別を緩和する。
論文 参考訳(メタデータ) (2024-04-29T09:22:54Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。