Fugu-MT 論文翻訳(概要): SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

論文の概要: SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2410.13293v1
Date: Thu, 17 Oct 2024 07:46:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.808091
Title: SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation
Title（参考訳）: SBI-RAG:スキーマに基づく指導と検索強化による学生の数学語問題解決を支援する
Authors: Prakhar Dixit, Tim Oates,
Abstract要約: そこで本研究では,学生が課題をその構造に基づいて分類し,課題解決の精度を向上させるためのフレームワークを提案する。我々のアプローチは、ソリューション生成をガイドするためにスキーマを活用することで、ステップバイステップの推論を強調します。 GSM8Kデータセットの性能評価を行い,GPT-4およびGPT-3.5 Turboと比較した。
参考スコア（独自算出の注目度）: 2.9540164442363976
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many students struggle with math word problems (MWPs), often finding it difficult to identify key information and select the appropriate mathematical operations.Schema-based instruction (SBI) is an evidence-based strategy that helps students categorize problems based on their structure, improving problem-solving accuracy. Building on this, we propose a Schema-Based Instruction Retrieval-Augmented Generation (SBI-RAG) framework that incorporates a large language model (LLM).Our approach emphasizes step-by-step reasoning by leveraging schemas to guide solution generation. We evaluate its performance on the GSM8K dataset, comparing it with GPT-4 and GPT-3.5 Turbo, and introduce a "reasoning score" metric to assess solution quality. Our findings suggest that SBI-RAG enhances reasoning clarity and problem-solving accuracy, potentially providing educational benefits for students
Abstract（参考訳）: 多くの学生が数学語問題(MWP)に苦しむが、鍵情報を特定し、適切な数学的操作を選択することが難しい場合が多く、Schema-based instruction(SBI)は、生徒が自分の構造に基づいて問題を分類し、問題解決の精度を向上させるエビデンスベースの戦略である。そこで我々は,大規模言語モデル(LLM)を組み込んだSBI-RAG(Schema-based Instruction Retrieval-Augmented Generation)フレームワークを提案する。我々のアプローチは、ソリューション生成をガイドするためにスキーマを活用することで、ステップバイステップの推論を強調します。 GSM8Kデータセットの性能評価を行い,GPT-4およびGPT-3.5 Turboと比較した。以上の結果から,SBI-RAGは推論の明瞭さと問題解決の精度を高め,学生に教育的利益をもたらす可能性が示唆された。

関連論文リスト

Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks [2.362412515574206]
大規模言語モデル(LLM)は、大量の文献に基づく情報を収集することで、教育において非常に有益であることが証明されている。本稿では,LLMを活用してGATEソリューションを説明し,学生の試験準備を支援するAIを活用した質問応答フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-02T08:11:07Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。 GPSM4Kは7～12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文参考訳（メタデータ） (2024-12-01T15:19:23Z)
Learning by Analogy: Enhancing Few-Shot Prompting for Math Word Problem Solving with Computational Graph-Based Retrieval [22.865124583257987]
同様に構造化された質問の類似性によって,大規模言語モデルの問題解決能力が向上することを示す。具体的には、与えられた質問に類似した計算グラフを持つ問題の検索を頼りに、プロンプトの見本として機能する。 6つの数学単語問題データセットに対する実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-25T15:01:25Z)
Improving Math Problem Solving in Large Language Models Through Categorization and Strategy Tailoring [0.0]
問題分類のための機械学習モデルを開発し、よく設計されたトレーニングデータセットを作成することにより、その精度を著しく向上させることができることを示す。 LLMの幻覚を減らし、高度な数学的問題に対処する可能性を解き放つための重要なステップである。
論文参考訳（メタデータ） (2024-10-29T16:06:26Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文参考訳（メタデータ） (2024-08-20T13:34:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。 LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文参考訳（メタデータ） (2024-04-19T08:45:42Z)
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文参考訳（メタデータ） (2023-09-29T17:59:38Z)
SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T15:59:54Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning [150.17907456113537]
数学的な推論を必要とする38,431のグレードレベルの問題を含む新しいデータセットであるTabular Math Word Problems (TabMWP)を提案する。我々は,GPT-3モデルを含む,TabMWP上での事前学習モデルの評価を行った。本稿では、ポリシー勾配を利用して、少量のトレーニングデータからコンテキスト内サンプルを選択する新しいアプローチ、PromptPGを提案する。
論文参考訳（メタデータ） (2022-09-29T08:01:04Z)
Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。 MWPを学習するためのテキスト弱教師付きパラダイムを提案する。この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文参考訳（メタデータ） (2020-12-19T03:10:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。