Fugu-MT 論文翻訳(概要): Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving

論文の概要: Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving

arxiv url: http://arxiv.org/abs/2310.08773v2
Date: Sat, 28 Oct 2023 00:24:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 19:50:41.596089
Title: Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving
Title（参考訳）: 科学技術問題解決におけるChatGPTの可能性と落とし穴の検討
Authors: Karen D. Wang, Eric Burkholder, Carl Wieman, Shima Salehi, Nick Haber
Abstract要約: この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。 ChatGPTは、よく特定された問題の62.5%をうまく解決することができたが、その精度は未特定問題に対して8.3%にまで低下した。
参考スコア（独自算出の注目度）: 1.3628066756509705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The study explores the capabilities of OpenAI's ChatGPT in solving different types of physics problems. ChatGPT (with GPT-4) was queried to solve a total of 40 problems from a college-level engineering physics course. These problems ranged from well-specified problems, where all data required for solving the problem was provided, to under-specified, real-world problems where not all necessary data were given. Our findings show that ChatGPT could successfully solve 62.5% of the well-specified problems, but its accuracy drops to 8.3% for under-specified problems. Analysis of the model's incorrect solutions revealed three distinct failure modes: 1) failure to construct accurate models of the physical world, 2) failure to make reasonable assumptions about missing data, and 3) calculation errors. The study offers implications for how to leverage LLM-augmented instructional materials to enhance STEM education. The insights also contribute to the broader discourse on AI's strengths and limitations, serving both educators aiming to leverage the technology and researchers investigating human-AI collaboration frameworks for problem-solving and decision-making.
Abstract（参考訳）: この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。 ChatGPT (GPT-4) は、カレッジレベルの工学物理学コースから合計40の問題を解くためにクエリーされた。これらの問題は、問題の解決に必要なデータがすべて提供された、十分に特定された問題から、必要なデータがすべて与えられていない、不特定な実世界の問題まで及んだ。その結果,chatgptは62.5%の問題点を解決できたが,その精度は8.3%に低下した。モデルの不正確なソリューションの分析により、3つの異なる障害モードが明らかになった。 1)物理世界の正確なモデルの構築に失敗したこと。 2)データの欠落について合理的な前提を定めていないこと、及び 3)計算誤差。この研究は、STEM教育を強化するためにLLMを付加した教材の活用方法に示唆を与える。この洞察はまた、AIの強みと限界に関する幅広い議論に寄与し、この技術を活用することを目指す教育者と、問題解決と意思決定のための人間とAIのコラボレーションフレームワークを研究する研究者の両方に役立ちます。

関連論文リスト

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。 AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文参考訳（メタデータ） (2026-01-30T14:56:04Z)
Learning the Boundary of Solvability: Aligning LLMs to Detect Unsolvable Problems [51.62477754641947]
本研究では,実現可能な問題を解き,固有の矛盾を検知し,能力を超えたタスクを慎重に拒否するUnsolvableQAとUnsolvableRLを提案する。具体的には、双トラック手法を用いて導出される、ペアで解決可能かつ解決不可能なインスタンスのデータセットであるUnsolvableQAを構築する。このデータセット上に構築されたUnsolvableRLは,精度,未解決性,難易度を考慮した3つの報酬成分を備えた強化学習フレームワークである。
論文参考訳（メタデータ） (2025-12-01T13:32:59Z)
Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文参考訳（メタデータ） (2025-11-13T03:08:51Z)
Benchmarking Large Language Models for Calculus Problem-Solving: A Comparative Analysis [0.0]
5つの主要大言語モデル (LLM) を, 微分問題を解く上での性能評価を行った。 Chat GPT 4oは最高成功率94.71%、Claude Pro(85.74%)、Gemini Advanced(84.42%)、Copilot Pro(76.30%)、Meta AI(56.75%)が続いた。
論文参考訳（メタデータ） (2025-03-31T00:39:40Z)
Performance Comparison of Large Language Models on Advanced Calculus Problems [0.0]
この研究は、ChatGPT 4o、1.5 Proを使ったGemini Advanced、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexityなど、モデルの正確性、信頼性、問題解決能力を評価することを目的としている。結果は、モデルのパフォーマンスにおける重要なトレンドとパターンを強調し、その長所と短所の両方を明らかにします。
論文参考訳（メタデータ） (2025-03-05T23:26:12Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz [0.0]
我々は、675の根本的な解決不可能な問題に対して不確実性を認識できる大規模言語モデル(LLM)の能力を評価する。 62-68%の精度で得られた最良のモデルは、生物学から哲学、数学まで様々な分野において未知であった。
論文参考訳（メタデータ） (2024-11-20T04:12:29Z)
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation [39.805610561281455]
LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。本稿では,新しい2成分微調整法を提案する。当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
論文参考訳（メタデータ） (2024-11-01T07:18:31Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。総合的な結果は、人工知能への大きな進歩を示している。
論文参考訳（メタデータ） (2024-09-27T06:57:00Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文参考訳（メタデータ） (2024-06-07T03:27:51Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文参考訳（メタデータ） (2023-09-15T06:13:06Z)
Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文参考訳（メタデータ） (2023-07-17T06:06:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。