論文の概要: Large Language Models for Mathematical Reasoning: Progresses and
Challenges
- arxiv url: http://arxiv.org/abs/2402.00157v1
- Date: Wed, 31 Jan 2024 20:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:24:22.651234
- Title: Large Language Models for Mathematical Reasoning: Progresses and
Challenges
- Title(参考訳): 数学的推論のための大規模言語モデル:進展と課題
- Authors: Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin
- Abstract要約: 大規模言語モデル (LLM) は数学問題の自動解法を指向している。
この調査は4つの重要な次元に対処する試みである。
これは、この急速に発展する分野における現在の状況、成果、将来の課題に関する全体論的な視点を提供する。
- 参考スコア(独自算出の注目度): 16.87506134755434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning serves as a cornerstone for assessing the fundamental
cognitive capabilities of human intelligence. In recent times, there has been a
notable surge in the development of Large Language Models (LLMs) geared towards
the automated resolution of mathematical problems. However, the landscape of
mathematical problem types is vast and varied, with LLM-oriented techniques
undergoing evaluation across diverse datasets and settings. This diversity
makes it challenging to discern the true advancements and obstacles within this
burgeoning field. This survey endeavors to address four pivotal dimensions: i)
a comprehensive exploration of the various mathematical problems and their
corresponding datasets that have been investigated; ii) an examination of the
spectrum of LLM-oriented techniques that have been proposed for mathematical
problem-solving; iii) an overview of factors and concerns affecting LLMs in
solving math; and iv) an elucidation of the persisting challenges within this
domain. To the best of our knowledge, this survey stands as one of the first
extensive examinations of the landscape of LLMs in the realm of mathematics,
providing a holistic perspective on the current state, accomplishments, and
future challenges in this rapidly evolving field.
- Abstract(参考訳): 数学的推論は、人間の知能の基本的な認知能力を評価するための基礎となる。
近年,数学問題の自動解法を目的とした大規模言語モデル(LLM)の開発が顕著に進んでいる。
しかし、数学的な問題の種類は様々であり、LLM指向の手法は様々なデータセットや設定で評価されている。
この多様性は、この急成長する分野における真の進歩と障害を理解するのを難しくする。
この調査は4つの重要な次元に取り組みます
一 調査した各種数学上の問題及びその対応するデータセットの総合的な調査
二 数学的問題解決のために提案されたLLM指向技術のスペクトルの検討
三 数学の解法における LLM に影響する要因及び問題の概要
四 この領域における持続する課題の解明
我々の知る限りでは、この調査は数学の領域におけるLLMの展望に関する最初の広範な調査の1つであり、この急速に発展する分野における現在の状況、成果、今後の課題に関する総合的な視点を提供するものである。
関連論文リスト
- LLM-Resistant Math Word Problem Generation via Adversarial Attacks [7.565175012136751]
大型言語モデル(LLM)は教育の景観を大きく変えた。
LLMは、問題の数値を単純に編集することで、誤った答えを生成する。
本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [2.1392064955842023]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Mathematical Language Models: A Survey [30.295544831040754]
本稿では,数学的言語モデル(LM)の包括的調査を行う。
この調査は、重要な研究成果を2つの異なる視点(タスクと方法論)から体系的に分類した。
この調査では、トレーニングデータセット、ベンチマークデータセット、拡張データセットなど、60以上の数学的データセットのコンパイルがカバーされている。
論文 参考訳(メタデータ) (2023-12-12T01:39:16Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [56.00281164118548]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Heterogeneous Representation Learning: A Review [66.12816399765296]
不均一表現学習(HRL)には、いくつかの独特な課題がある。
異種入力を用いて既存の学習環境をモデル化可能な統合学習フレームワークを提案する。
HRLでは触れられていない課題と今後の研究方向性を強調します。
論文 参考訳(メタデータ) (2020-04-28T05:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。