論文の概要: Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving
- arxiv url: http://arxiv.org/abs/2310.08773v2
- Date: Sat, 28 Oct 2023 00:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:50:41.596089
- Title: Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving
- Title(参考訳): 科学技術問題解決におけるChatGPTの可能性と落とし穴の検討
- Authors: Karen D. Wang, Eric Burkholder, Carl Wieman, Shima Salehi, Nick Haber
- Abstract要約: この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPTは、よく特定された問題の62.5%をうまく解決することができたが、その精度は未特定問題に対して8.3%にまで低下した。
- 参考スコア(独自算出の注目度): 1.3628066756509705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study explores the capabilities of OpenAI's ChatGPT in solving different
types of physics problems. ChatGPT (with GPT-4) was queried to solve a total of
40 problems from a college-level engineering physics course. These problems
ranged from well-specified problems, where all data required for solving the
problem was provided, to under-specified, real-world problems where not all
necessary data were given. Our findings show that ChatGPT could successfully
solve 62.5% of the well-specified problems, but its accuracy drops to 8.3% for
under-specified problems. Analysis of the model's incorrect solutions revealed
three distinct failure modes: 1) failure to construct accurate models of the
physical world, 2) failure to make reasonable assumptions about missing data,
and 3) calculation errors. The study offers implications for how to leverage
LLM-augmented instructional materials to enhance STEM education. The insights
also contribute to the broader discourse on AI's strengths and limitations,
serving both educators aiming to leverage the technology and researchers
investigating human-AI collaboration frameworks for problem-solving and
decision-making.
- Abstract(参考訳): この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPT (GPT-4) は、カレッジレベルの工学物理学コースから合計40の問題を解くためにクエリーされた。
これらの問題は、問題の解決に必要なデータがすべて提供された、十分に特定された問題から、必要なデータがすべて与えられていない、不特定な実世界の問題まで及んだ。
その結果,chatgptは62.5%の問題点を解決できたが,その精度は8.3%に低下した。
モデルの不正確なソリューションの分析により、3つの異なる障害モードが明らかになった。
1)物理世界の正確なモデルの構築に失敗したこと。
2)データの欠落について合理的な前提を定めていないこと、及び
3)計算誤差。
この研究は、STEM教育を強化するためにLLMを付加した教材の活用方法に示唆を与える。
この洞察はまた、AIの強みと限界に関する幅広い議論に寄与し、この技術を活用することを目指す教育者と、問題解決と意思決定のための人間とAIのコラボレーションフレームワークを研究する研究者の両方に役立ちます。
関連論文リスト
- Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with
Large Language Models [51.35398315130094]
構造的知識に対する幾何学的推論を提案し、そこでは知識の一部がグラフ構造に連結され、モデルは不足した情報を埋める必要がある。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
本稿では,不完全なエンティティネットワークの幾何学的制約を表す自然言語質問からなるマルチブランクQAデータセットであるKnowledge Crosswordsを提案する。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Using Large Language Model to Solve and Explain Physics Word Problems
Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。
我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文 参考訳(メタデータ) (2023-09-15T06:13:06Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z) - Evaluating GPT's Programming Capability through CodeWars' Katas [0.5512295869673147]
本稿では,GPT(Generative Pretrained Transformer)モデルのプログラミング能力の新たな評価法を提案する。
実験では、これらのGPTモデルがソリューション提供に苦しむ3休レベルでの明確な境界を明らかにした。
この研究は、人間の問題解決技術をうまくエミュレートするために、AIモデルにおけるバリデーションと創造的な思考能力の必要性を強調している。
論文 参考訳(メタデータ) (2023-05-31T10:36:16Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。