論文の概要: Structured Reasoning with Tree-of-Thoughts for Bengali Math Word Problems
- arxiv url: http://arxiv.org/abs/2512.05580v1
- Date: Fri, 05 Dec 2025 10:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.987939
- Title: Structured Reasoning with Tree-of-Thoughts for Bengali Math Word Problems
- Title(参考訳): ベンガル語の単語問題に対する木木を用いた構造的推論
- Authors: Aurprita Mahmood, Sabrin alam, Neloy kumer Sagor, Md. Abdul Hadi, Md. Sehab Al Islam, Minhajul Islam,
- Abstract要約: CoT(Chain-of-Thought)のプロンプトは有望であるが、線形構造はしばしばエラーを伝播する。
本稿では,SOMADHANデータセットを用いたベンガルMWPのツリー・オブ・ソート(ToT)推論の系統的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical Word Problems (MWPs) are among the most challenging tasks in natural language processing because they require both linguistic understanding and multi-step numerical reasoning. While Chain-of-Thought (CoT) prompting has shown promise, its linear structure often propagates errors, limiting overall effectiveness. To address this limitation, we present the a systematic study of Tree-of-Thought (ToT) reasoning for Bengali MWPs using the SOMADHAN dataset. Owing to computational and token-cost constraints, we evaluate a curated set of 100 representative problems across multiple large language models (LLMs), including GPT-OSS and LLaMA variants, under standard prompting, CoT, and ToT strategies. Our results show that CoT improves baseline accuracy from 78% (standard prompting) to 83% on average, while ToT further increases performance by up to 5 percentage points, achieving 88% accuracy with GPT-OSS-120B. These improvements highlight that ToT is particularly effective in medium-to-large-scale models but may offer less advantage for smaller ones. Overall, our findings establish ToT as a robust framework for solving mathematical problems in low-resource languages such as Bengali. More broadly, this study shows that structured reasoning methods like ToT can provide more reliable and globally consistent outcomes than CoT, paving the way for better reasoning strategies in multilingual NLP.
- Abstract(参考訳): 数学的単語問題(MWP)は、言語理解と多段階の数値推論の両方を必要とするため、自然言語処理において最も難しい課題の一つである。
CoT(Chain-of-Thought)のプロンプトは有望であるが、線形構造はしばしばエラーを伝播し、全体的な効果を制限している。
この制限に対処するため,SOMADHANデータセットを用いたベンガルMWPのツリー・オブ・ソート(ToT)推論の系統的研究を行った。
計算とトークンコストの制約により、GPT-OSSやLLaMAなどを含む複数大言語モデル(LLM)にまたがる100の代表的な問題を、標準プロンプト、CoT、ToTの戦略の下で評価する。
その結果,CoTはベースライン精度を78%(標準プロンプト)から83%に向上し,ToTは最大5ポイント向上し,GPT-OSS-120Bでは88%の精度が得られた。
これらの改善は、ToTが特に中規模から大規模モデルで有効であるが、より小さなモデルでは利点が低いことを強調している。
本研究は, ベンガル語などの低リソース言語において, 数学問題を解くための堅牢なフレームワークとしてToTを確立した。
より広範に、ToTのような構造化推論手法は、CoTよりも信頼性が高く、一貫した結果をもたらすことが示され、多言語NLPにおけるより良い推論戦略の道を開いた。
関連論文リスト
- Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。
パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文 参考訳(メタデータ) (2025-10-26T21:58:33Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning [0.0]
ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
論文 参考訳(メタデータ) (2025-05-27T15:47:10Z) - Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.81815833343026]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。
提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。
ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (2025-05-26T08:54:14Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models [15.65204261844768]
本稿では,大規模言語モデル(LLM)の数学的能力を高めるために,PEPという新しい手法を提案する。
PEPは、推論の前に問題コンテキストを分解し、解明するので、コンテキストモデリングと解析効率が向上する。
論文 参考訳(メタデータ) (2024-02-24T08:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。