論文の概要: Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning
- arxiv url: http://arxiv.org/abs/2505.21354v1
- Date: Tue, 27 May 2025 15:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.770515
- Title: Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning
- Title(参考訳): 思考推論の連鎖を考慮したベンガル数学語問題に対する大規模言語モデルの活用
- Authors: Bidyarthi Paul, Jalisha Jashim Era, Mirazur Rahman Zim, Tahmid Sattar Aothoi, Faisal Muhammad Shah,
- Abstract要約: ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving Bengali Math Word Problems (MWPs) remains a major challenge in natural language processing (NLP) due to the language's low-resource status and the multi-step reasoning required. Existing models struggle with complex Bengali MWPs, largely because no human-annotated Bengali dataset has previously addressed this task. This gap has limited progress in Bengali mathematical reasoning. To address this, we created SOMADHAN, a dataset of 8792 complex Bengali MWPs with manually written, step-by-step solutions. We designed this dataset to support reasoning-focused evaluation and model development in a linguistically underrepresented context. Using SOMADHAN, we evaluated a range of large language models (LLMs) - including GPT-4o, GPT-3.5 Turbo, LLaMA series models, Deepseek, and Qwen - through both zero-shot and few-shot prompting with and without Chain of Thought (CoT) reasoning. CoT prompting consistently improved performance over standard prompting, especially in tasks requiring multi-step logic. LLaMA-3.3 70B achieved the highest accuracy of 88% with few-shot CoT prompting. We also applied Low-Rank Adaptation (LoRA) to fine-tune models efficiently, enabling them to adapt to Bengali MWPs with minimal computational cost. Our work fills a critical gap in Bengali NLP by providing a high-quality reasoning dataset and a scalable framework for solving complex MWPs. We aim to advance equitable research in low-resource languages and enhance reasoning capabilities in educational and language technologies.
- Abstract(参考訳): Bengali Math Word Problems (MWP) の解決は、自然言語処理(NLP)において、低リソース状態と多段階推論を必要とするため、依然として大きな課題である。
既存のモデルは複雑なBengali MWPと苦労している。
このギャップはベンガルの数学的推論の進歩に限られている。
そこで我々は,手書きのステップバイステップソリューションを用いた8792のベンガルMWPのデータセットであるSOMADHANを開発した。
このデータセットは、言語的に表現されていない文脈で、推論に焦点を当てた評価とモデル開発を支援するために設計されている。
GPT-4o, GPT-3.5 Turbo, LLaMA シリーズモデル, Deepseek, Qwen など,多種多様な言語モデル (LLMs) をゼロショットと少数ショットの両方で, チェーン・オブ・シント (CoT) による推論により評価した。
CoTプロンプトは、特にマルチステップロジックを必要とするタスクにおいて、標準プロンプトよりも一貫してパフォーマンスを改善した。
LLaMA-3.3 70Bは、数発のCoTプロンプトで88%の精度を達成した。
また,Low-Rank Adaptation (LoRA) を高速な微調整モデルに適用し,最小計算コストでBengali MWPに適応できるようにした。
本研究は,複雑なMWPを解くための高品質な推論データセットとスケーラブルなフレームワークを提供することにより,ベンガルのNLPにおける重要なギャップを埋める。
我々は,低リソース言語における公平な研究を進め,教育・言語技術における推論能力を高めることを目的としている。
関連論文リスト
- BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。
データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。
我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2025-05-25T02:54:31Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - Empowering Bengali Education with AI: Solving Bengali Math Word Problems through Transformer Models [0.0]
本稿では, 変圧器モデルを用いたベンガルMWPの解法を提案する。
この取り組みをサポートするために、ベンガルの数学問題10,000を含む"PatiGonit"データセットが導入された。
評価の結果、mT5モデルは97.30%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-05T16:50:55Z) - Too Late to Train, Too Early To Use? A Study on Necessity and Viability of Low-Resource Bengali LLMs [2.309018557701645]
低リソース言語専用の英語指向の大規模言語モデルの必要性について検討する。
オープンウェイトおよびクローズドソースLLMの性能を、微調整エンコーダデコーダモデルと比較する。
LLMは一般的に推論タスクに優れるが,Bengaliスクリプト生成を必要とするタスクのパフォーマンスは不整合である。
論文 参考訳(メタデータ) (2024-06-29T11:50:16Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Generate & Rank: A Multi-task Framework for Math Word Problems [48.99880318686938]
数学語問題(MWP)は自然言語処理において困難かつ重要な課題である。
生成事前学習型言語モデルに基づくフレームワークであるGenerate & Rankを提案する。
生成とランキングの併用トレーニングによって、モデルは自身のミスから学習し、正しい表現と間違った表現を区別することができる。
論文 参考訳(メタデータ) (2021-09-07T12:21:49Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。