Fugu-MT 論文翻訳(概要): Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning

論文の概要: Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2503.18432v1
Date: Mon, 24 Mar 2025 08:28:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.162237
Title: Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning
Title（参考訳）: 強化学習によるステップレベル自動数学補正のためのLLM教育
Authors: Junsong Li, Jie Zhou, Yutao Yang, Bihao Zhan, Qianjun Pan, Yuyang Ding, Qin Chen, Jiang Bo, Xin Lin, Liang He,
Abstract要約: ステップレベル自動算数補正のための拡張学習(RL)に基づく大規模言語モデル(LLM)の強化手法,StepAMCを提案する。特に,テキスト分類タスクにおける段階的な自動算数補正をRL問題に変換し,LLMの推論能力を向上させる。
参考スコア（独自算出の注目度）: 29.97121243044881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic math correction aims to check students' solutions to mathematical problems via artificial intelligence technologies. Most existing studies focus on judging the final answer at the problem level, while they ignore detailed feedback on each step in a math problem-solving process, which requires abilities of semantic understanding and reasoning. In this paper, we propose a reinforcement learning (RL)-based method to boost large language model (LLM) for step-level automatic math correction, named StepAMC. Particularly, we convert the step-level automatic math correction within the text classification task into an RL problem to enhance the reasoning capabilities of LLMs. Then, we design a space-constrained policy network to improve the stability of RL. Then, we introduce a fine-grained reward network to convert the binary human feedback into a continuous value. We conduct extensive experiments over two benchmark datasets and the results show that our model outperforms the eleven strong baselines.
Abstract（参考訳）: 自動数学補正は、人工知能技術を用いて、数学問題に対する生徒の解決策をチェックすることを目的としている。既存のほとんどの研究は、問題レベルでの最終的な答えを判断することに重点を置いているが、数学の問題解決プロセスにおける各ステップに関する詳細なフィードバックは無視している。本稿では,ステップレベルの自動算数補正のための拡張学習(RL)に基づく大規模言語モデル(LLM)の強化手法,StepAMCを提案する。特に,テキスト分類タスクにおける段階的な自動算数補正をRL問題に変換し,LLMの推論能力を向上させる。そして、RLの安定性を向上させるために、空間制約付きポリシーネットワークを設計する。次に,2値フィードバックを連続的な値に変換するための細粒度報酬ネットワークを提案する。 2つのベンチマークデータセットに対して広範な実験を行い、その結果、我々のモデルは11の強いベースラインよりも優れています。

関連論文リスト

WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文参考訳（メタデータ） (2025-08-02T07:45:12Z)
Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning [35.142294794883455]
細粒度アノテーションを持つ新しいデータセットであるMathOlympiadEvalを導入し、LLMの回答の正しさとプロセスの正しさの間に大きなギャップがあることを明らかにした。 LLM-as-a-judgeのような既存の自動化手法は、これらの推論の欠陥を確実に検出するのに苦労する。そこで我々はParaStepVerifierを提案する。ParaStepVerifierは数学的解の厳密なステップバイステップ検証のための新しい手法である。
論文参考訳（メタデータ） (2025-06-07T17:54:56Z)
A Survey on Mathematical Reasoning and Optimization with Large Language Models [0.5439020425819]
大規模言語モデル(LLM)の最近の進歩は、AIによる数学的推論、定理証明、最適化技術を大幅に改善している。この調査は、AIにおける数学的問題解決の進化を、初期の統計的学習アプローチから近代的なディープラーニングやトランスフォーマーに基づく方法論まで調査する。
論文参考訳（メタデータ） (2025-03-22T10:49:32Z)
MathMistake Checker: A Comprehensive Demonstration for Step-by-Step Math Problem Mistake Finding by Prompt-Guided LLMs [13.756898876556455]
そこで本研究では,数理問題におけるステップ・バイ・ステップの誤り発見を自動化する新しいシステムであるMathMistake Checkerを提案する。本システムは,教育的観点からの学習経験を簡素化し,効率を向上させることを目的としている。
論文参考訳（メタデータ） (2025-03-06T10:19:01Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である本稿では,S$3$c-Mathを提案する。
論文参考訳（メタデータ） (2024-09-03T01:40:21Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-06T15:20:30Z)
Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文参考訳（メタデータ） (2024-04-29T12:16:08Z)
From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。 Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-03-21T13:29:54Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。