論文の概要: Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems
- arxiv url: http://arxiv.org/abs/2410.18336v1
- Date: Thu, 24 Oct 2024 00:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:29.493967
- Title: Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems
- Title(参考訳): 数学的問題に対する新しい解法の提案におけるLCMの創造性の評価
- Authors: Junyi Ye, Jingyi Gu, Xinyun Zhao, Wenpeng Yin, Guiling Wang,
- Abstract要約: 本研究では,Large Language Models (LLMs) の数学的推論における創造的可能性について検討する。
本稿では,中学のカリキュラムからオリンピックレベルの競技までを含む新しいフレームワークとベンチマークであるCreativeMathを紹介する。
実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
- 参考スコア(独自算出の注目度): 9.162206328913237
- License:
- Abstract: The mathematical capabilities of AI systems are complex and multifaceted. Most existing research has predominantly focused on the correctness of AI-generated solutions to mathematical problems. In this work, we argue that beyond producing correct answers, AI systems should also be capable of, or assist humans in, developing novel solutions to mathematical challenges. This study explores the creative potential of Large Language Models (LLMs) in mathematical reasoning, an aspect that has received limited attention in prior research. We introduce a novel framework and benchmark, CreativeMath, which encompasses problems ranging from middle school curricula to Olympic-level competitions, designed to assess LLMs' ability to propose innovative solutions after some known solutions have been provided. Our experiments demonstrate that, while LLMs perform well on standard mathematical tasks, their capacity for creative problem-solving varies considerably. Notably, the Gemini-1.5-Pro model outperformed other LLMs in generating novel solutions. This research opens a new frontier in evaluating AI creativity, shedding light on both the strengths and limitations of LLMs in fostering mathematical innovation, and setting the stage for future developments in AI-assisted mathematical discovery.
- Abstract(参考訳): AIシステムの数学的能力は複雑で多面的である。
既存の研究のほとんどは、数学問題に対するAI生成ソリューションの正しさに重点を置いている。
この研究では、正しい答えを生み出すこと以外に、AIシステムは人間を参加させ、数学的課題に対する新しい解決策を開発できるか、または支援すべきである、と論じる。
本研究では,数学的推論におけるLarge Language Models (LLMs) の創造的可能性について検討する。
我々は,中学カリキュラムからオリンピックレベルの競技まで,いくつかの既知のソリューションが提供された後,LLMが革新的なソリューションを提案する能力を評価するために設計された,新しいフレームワークとベンチマークであるCreativeMathを紹介した。
実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
特に、Gemini-1.5-Pro モデルは、新しいソリューションを生成する上で他の LLM よりも優れていた。
この研究は、AIの創造性を評価するための新たなフロンティアを開き、数学的革新の育成におけるLLMの強みと限界の両方に光を当て、AIによる数学的発見における将来の発展のステージを定めている。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [17.56712029335294]
創造性は少なくとも2つの重要な特徴から成り立っている: 啓発的思考(与えられた目標を達成するための目的性)と啓示的思考(新しい環境や制約への適応性) citeprunco 2003 クリティカル
2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。
これは、(1)デニアル・プロンプティング(Denial Prompting)は、従来のソリューションに新たな制約を漸進的に課すことによって、LLMが与えられた問題に対してより創造的な解決策を導き出すよう促す。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - Large Language Models for Mathematical Reasoning: Progresses and Challenges [15.925641169201747]
大規模言語モデル (LLM) は数学問題の自動解法を指向している。
この調査は4つの重要な次元に対処する試みである。
これは、この急速に発展する分野における現在の状況、成果、将来の課題に関する全体論的な視点を提供する。
論文 参考訳(メタデータ) (2024-01-31T20:26:32Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - LLMs as Potential Brainstorming Partners for Math and Science Problems [0.0]
現在の人間と機械の知的なコラボレーションと複雑な数学と科学の問題の解決の間には、依然として大きな亀裂がある。
これは、Large Language Models (LLMs) の最近の進歩によるものである。
我々は、人間との集団脳卒中において、現在最先端のLDM(特にGPT-4)の能力と限界を探求する包括的ケーススタディを実施している。
論文 参考訳(メタデータ) (2023-10-10T21:16:35Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。