論文の概要: Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving
- arxiv url: http://arxiv.org/abs/2310.08773v1
- Date: Thu, 12 Oct 2023 23:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:02:27.510549
- Title: Examining the Potential and Pitfalls of ChatGPT in Science and
Engineering Problem-Solving
- Title(参考訳): 科学技術問題解決におけるChatGPTの可能性と落とし穴の検討
- Authors: Karen D. Wang, Eric Burkholder, Carl Wieman, Shima Salehi, Nick Haber
- Abstract要約: この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPTは、大学レベルの工学物理学コースから合計40の問題を解決するために問い合わせられた。
- 参考スコア(独自算出の注目度): 1.3628066756509705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study explores the capabilities of OpenAI's ChatGPT in solving different
types of physics problems. ChatGPT (with GPT-4) was queried to solve a total of
40 problems from a college-level engineering physics course. These problems
ranged from well-specified problems, where all data required for solving the
problem was provided, to under-specified, real-world problems where not all
necessary data were given. Our findings show that ChatGPT could successfully
solve 62.5\% of the well-specified problems, but its accuracy drops to 8.3\%
for under-specified problems. Analysis of the model's incorrect solutions
revealed three distinct failure modes: 1) failure to construct accurate models
of the physical world, 2) failure to make reasonable assumptions about missing
data, and 3) calculation errors. The study offers implications for how to
leverage LLM-augmented instructional materials to enhance STEM education. The
insights also contribute to the broader discourse on AI's strengths and
limitations, serving both educators aiming to leverage the technology and
researchers investigating human-AI collaboration frameworks for problem-solving
and decision-making.
- Abstract(参考訳): この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。
ChatGPT (GPT-4) は、カレッジレベルの工学物理学コースから合計40の問題を解くためにクエリーされた。
これらの問題は、問題の解決に必要なデータがすべて提供された、十分に特定された問題から、必要なデータがすべて与えられていない、不特定な実世界の問題まで及んだ。
以上の結果から,ChatGPTは未特定問題の62.5\%を解き,精度は8.3\%に低下した。
モデルの不正確なソリューションの分析により、3つの異なる障害モードが明らかになった。
1)物理世界の正確なモデルの構築に失敗したこと。
2)データの欠落について合理的な前提を定めていないこと、及び
3)計算誤差。
この研究は、STEM教育を強化するためにLLMを付加した教材の活用方法に示唆を与える。
この洞察はまた、AIの強みと限界に関する幅広い議論に寄与し、この技術を活用することを目指す教育者と、問題解決と意思決定のための人間とAIのコラボレーションフレームワークを研究する研究者の両方に役立ちます。
関連論文リスト
- The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz [0.0]
我々は、675の根本的な解決不可能な問題に対して不確実性を認識できる大規模言語モデル(LLM)の能力を評価する。
62-68%の精度で得られた最良のモデルは、生物学から哲学、数学まで様々な分野において未知であった。
論文 参考訳(メタデータ) (2024-11-20T04:12:29Z) - Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation [39.805610561281455]
LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。
ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
本稿では,新しい2成分微調整法を提案する。
当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
論文 参考訳(メタデータ) (2024-11-01T07:18:31Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。
このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。
総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (2024-09-27T06:57:00Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文 参考訳(メタデータ) (2024-06-07T03:27:51Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Using Large Language Model to Solve and Explain Physics Word Problems
Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。
我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文 参考訳(メタデータ) (2023-09-15T06:13:06Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。