論文の概要: GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
- arxiv url: http://arxiv.org/abs/2601.06767v1
- Date: Sun, 11 Jan 2026 03:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.972737
- Title: GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
- Title(参考訳): GanitLLM:カリキュラムGRPOによるベンガル数理推論の難しさ
- Authors: Shubhashis Roy Dipta, Khairul Mahbub, Nadia Najjar,
- Abstract要約: 本稿では,GanitLLMと呼ばれるベンガルの数学的推論モデルを提案する。
また,難易度の高いベンガル数学コーパスとカリキュラムベースのGRPOパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Bengali mathematical reasoning model called GanitLLM (named after the Bangla word for mathematics, "Ganit"), together with a new difficulty-aware Bengali math corpus and a curriculum-based GRPO pipeline. Bengali is one of the world's most widely spoken languages, yet existing LLMs either reason in English and then translate, or simply fail on multi-step Bengali math, in part because reinforcement learning recipes are tuned for high-resource languages and collapse under reward sparsity in low-resource settings. To address this, we construct Ganit, a rigorously filtered and decontaminated Bengali math dataset with automatic difficulty tags derived from the pass@k of a strong evaluator model. Building on this dataset, we propose Curriculum-GRPO, which combines multi-stage training (SFT + GRPO) with difficulty-aware sampling and verifiable rewards for format, numerical correctness, and Bengali reasoning. On Bn-MGSM and Bn-MSVAMP, GanitLLM-4B improves over its Qwen3-4B base by +8 and +7 accuracy points, respectively, while increasing the percentage of Bengali reasoning tokens from 14% to over 88% and reducing average solution length from 943 to 193 words.
- Abstract(参考訳): 本稿では,GanitLLM(バングラ語で「ガニット」を意味する)と呼ばれるベンガルの数学的推論モデルと,新しい難解なベンガル数学コーパスとカリキュラムベースのGRPOパイプラインを提案する。
ベンガル語は世界でも最も広く話されている言語の一つであるが、既存のLLMは英語で理にかなっているか、翻訳されているか、あるいは多段階のベンガル数学で失敗している。
そこで我々は,強評価モデルのpass@kから自動的な難易度タグ付きベンガル数学データセットであるGanitを構築した。
本データセットに基づいて,多段階学習(SFT + GRPO)と難解なサンプリングと,形式,数値的正確性,ベンガル推論に対する検証可能な報酬を組み合わせたカリキュラム-GRPOを提案する。
Bn-MGSMとBn-MSVAMPでは、GanitLLM-4BはQwen3-4Bベースを+8と+7の精度で改善し、ベンガルの推論トークンの割合は14%から88%に増加し、平均解長は943から193ワードに短縮された。
関連論文リスト
- BengaliFig: A Low-Resource Challenge for Figurative and Culturally Grounded Reasoning in Bengali [0.0]
コンパクトでリッチな注釈付き挑戦集合であるBengaliFigを提示する。
データセットには、ベンガルの口頭と文学の伝統から採られた435のユニークな謎が含まれている。
各項目は、推論タイプ、トラップタイプ、文化的深さ、回答カテゴリ、難易度を5次元にアノテートする。
論文 参考訳(メタデータ) (2025-11-25T15:26:47Z) - Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning [0.0]
ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
論文 参考訳(メタデータ) (2025-05-27T15:47:10Z) - Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [51.15420267178]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。
この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。
本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-06T08:25:43Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Baichuan 2: Open Large-scale Language Models [51.34140526283222]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New
Datasets for Bengali-English Machine Translation [6.2418269277908065]
ベンガル語は世界で7番目に広く話されている言語であるにもかかわらず、資源不足のため機械翻訳文学にはあまり注目されていない。
我々はBengali用にカスタマイズされた文セグメンタを構築し、低リソース環境における並列コーパス生成のための2つの新しい手法を提案する。
セグメンタと2つの手法を組み合わせることで、275万文対からなる高品質なベンガル英語並列コーパスをコンパイルする。
論文 参考訳(メタデータ) (2020-09-20T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。