Fugu-MT 論文翻訳(概要): Large Language Models for Mathematical Reasoning: Progresses and Challenges

論文の概要: Large Language Models for Mathematical Reasoning: Progresses and Challenges

arxiv url: http://arxiv.org/abs/2402.00157v4
Date: Mon, 16 Sep 2024 19:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 22:31:03.684141
Title: Large Language Models for Mathematical Reasoning: Progresses and Challenges
Title（参考訳）: 数学的推論のための大規模言語モデル:進展と課題
Authors: Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin,
Abstract要約: 大規模言語モデル (LLM) は数学問題の自動解法を指向している。この調査は4つの重要な次元に対処する試みである。これは、この急速に発展する分野における現在の状況、成果、将来の課題に関する全体論的な視点を提供する。
参考スコア（独自算出の注目度）: 15.925641169201747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.
Abstract（参考訳）: 数学的推論は、人間の知能の基本的な認知能力を評価するための基礎となる。近年,数学問題の自動解法を目的とした大規模言語モデル(LLM)の開発が顕著に進んでいる。しかし、数学的な問題の種類は様々であり、LLM指向の手法は様々なデータセットや設定で評価されている。この多様性は、この急成長する分野における真の進歩と障害を識別することを困難にしている。この調査は4つの重要な次元に対処する試みである。一調査した各種数学上の問題及びそれに対応するデータセットを総合的に調査すること。二数学的問題解決のために提案されたLLM指向技術のスペクトルの検討三数学の解法における LLM に影響する要因及び問題の概要四この領域内の持続的課題の解明我々の知る限りでは、この調査は数学の領域におけるLLMの展望に関する最初の広範な調査の1つであり、この急速に発展する分野における現在の状況、成果、今後の課題に関する総合的な視点を提供するものである。

関連論文リスト

MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。 MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。 MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文参考訳（メタデータ） (2025-08-09T06:21:10Z)
A Survey of Deep Learning for Geometry Problem Solving [72.22844763179786]
本稿では,幾何学的問題解決におけるディープラーニングの応用について調査する。 i)幾何学的問題解決における関連する課題の包括的概要、(ii)関連するディープラーニング手法の徹底的なレビュー、(iii)評価指標と手法の詳細な分析を含む。我々の目標は、この分野のさらなる発展を促進するために、幾何学的問題解決のためのディープラーニングの包括的で実践的な参照を提供することである。
論文参考訳（メタデータ） (2025-07-16T06:03:08Z)
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey [48.53273952814492]
大規模言語モデル(LLM)は、様々なドメインにまたがる複雑な問題に対処できる強力なツールとして登場した。 LLMを現実世界の問題解決に適用することは、多段階推論、ドメイン知識の統合、結果検証など、重大な課題を提示します。
論文参考訳（メタデータ） (2025-05-06T10:53:58Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning [7.512199306943756]
数学的推論タスクにおける大規模言語モデルの能力を高めるための新しい手法を提案する。このギャップを埋める必要性に感銘を受け、私たちのアプローチには質問パラフレーズ戦略が組み込まれています。モデルの学習プロセスを導くために専門的な訓練目的が使われています。
論文参考訳（メタデータ） (2024-12-28T17:48:33Z)
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。 2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文参考訳（メタデータ） (2024-12-16T16:21:41Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model [37.26146689342965]
大規模言語モデル(LLM)は、数学的推論において重要な能力を示している。 MLLMは幾何学的な問題を解くことに集中する傾向があるが、数学の他の領域で利用可能な視覚情報の多様性を無視する傾向がある。本研究の目的は,MathGLM-Vision と呼ばれる特殊な数学的MLLMのシリーズを開発することである。
論文参考訳（メタデータ） (2024-09-10T01:20:22Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。 GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文参考訳（メタデータ） (2024-06-16T08:06:05Z)
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。 LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文参考訳（メタデータ） (2024-04-19T08:45:42Z)
Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-02-22T18:56:38Z)
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文参考訳（メタデータ） (2023-12-18T17:36:20Z)
Mathematical Language Models: A Survey [29.419915295762692]
本稿では,2つの異なる視点 – タスクと方法論 – から重要な研究成果を体系的に分類する,数学的 LM の総合的な調査を行う。この調査では、トレーニングデータセット、ベンチマークデータセット、拡張データセットなど、60以上の数学的データセットのコンパイルがカバーされている。
論文参考訳（メタデータ） (2023-12-12T01:39:16Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Heterogeneous Representation Learning: A Review [66.12816399765296]
不均一表現学習(HRL)には、いくつかの独特な課題がある。異種入力を用いて既存の学習環境をモデル化可能な統合学習フレームワークを提案する。 HRLでは触れられていない課題と今後の研究方向性を強調します。
論文参考訳（メタデータ） (2020-04-28T05:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。