論文の概要: Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil
- arxiv url: http://arxiv.org/abs/2602.14517v1
- Date: Mon, 16 Feb 2026 07:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.241762
- Title: Beyond Translation: Evaluating Mathematical Reasoning Capabilities of LLMs in Sinhala and Tamil
- Title(参考訳): 翻訳を超えて:シンハラとタミルにおけるLLMの数学的推論能力の評価
- Authors: Sukumar Kishanthan, Kumar Thushalika, Buddhi Jayasekara, Asela Hevapathige,
- Abstract要約: 大きな言語モデル(LLM)は、英語で強い数学的推論を示す。
しかし、これらの機能が真の多言語推論や、SinhalaやTamilのような低リソース言語での翻訳ベースの処理に依存しているかどうかは不明だ。
6種類の数学問題の分類法を用いて4つの顕著な大言語モデルを評価する。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong mathematical reasoning in English, but whether these capabilities reflect genuine multilingual reasoning or reliance on translation-based processing in low-resource languages like Sinhala and Tamil remains unclear. We examine this fundamental question by evaluating whether LLMs genuinely reason mathematically in these languages or depend on implicit translation to English-like representations. Using a taxonomy of six math problem types, from basic arithmetic to complex unit conflict and optimization problems, we evaluate four prominent large language models. To avoid translation artifacts that confound language ability with translation quality, we construct a parallel dataset where each problem is natively authored by fluent speakers with mathematical training in all three languages. Our analysis demonstrates that while basic arithmetic reasoning transfers robustly across languages, complex reasoning tasks show significant degradation in Tamil and Sinhala. The pattern of failures varies by model and problem type, suggesting that apparent multilingual competence may not reflect uniform reasoning capabilities across languages. These findings challenge the common assumption that models exhibiting strong multilingual performance can reason equally effectively across languages, and highlight the need for fine-grained, type-aware evaluation in multilingual settings.
- Abstract(参考訳): 大きな言語モデル(LLM)は、英語で強い数学的推論を示すが、これらの能力が真の多言語推論を反映しているか、あるいはシンハラやタミルのような低リソース言語での翻訳に基づく処理に依存しているのかは、いまだ不明である。
本研究では,これらの言語においてLLMが真に数学的に理性的であるか,あるいは英語的な表現への暗黙的な翻訳に依存しているかを評価することによって,この根本的な問題を考察する。
基本的な算術から複雑な単位競合や最適化問題に至るまでの6種類の数学問題の分類法を用いて、4つの顕著な大言語モデルを評価する。
翻訳能力と翻訳品質を両立させる翻訳アーチファクトを避けるために,3言語すべてに数学的訓練を施した流用話者が各問題をネイティブに作成する並列データセットを構築した。
解析により,基本的な算術的推論は言語間で頑健に伝達されるが,複雑な推論タスクはタミル語とシンハラ語で顕著な劣化を示すことが示された。
失敗のパターンはモデルや問題の種類によって異なり、言語間での統一推論能力を反映していないことが示唆される。
これらの知見は,多言語間性能を示すモデルが言語間で等しく効果的に推論できるという一般的な仮定に挑戦し,多言語環境における細粒度型認識評価の必要性を強調した。
関連論文リスト
- Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning [6.8892368960722346]
数学的問題解決と推論のための並列多言語ベンチマークであるMathMistを紹介する。
MathMistには、7つの言語にまたがる21万以上の質問回答ペアが含まれている。
我々は,オープンソースの中小LCM,プロプライエタリシステム,多言語推論型モデルなど,多様なモデル群を体系的に評価する。
論文 参考訳(メタデータ) (2025-10-16T04:59:52Z) - Think Globally, Group Locally: Evaluating LLMs Using Multi-Lingual Word Grouping Games [4.924013532447991]
我々はNew York Times Connections: GlobalGroupに触発されたタスクを提案し、複数の言語にまたがる抽象的推論タスクにおいてモデルを評価する。
ネイティブ言語と英訳の双方で5つの言語背景を持つゲームベンチマークを構築した。
英語のモダリティは、この抽象的推論タスクにおけるパフォーマンスの向上と、オープンソースモデルとクローズドソースモデルのパフォーマンスの相違に大きく寄与している。
論文 参考訳(メタデータ) (2025-10-15T19:12:43Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。