論文の概要: Assessing Large Language Models in Mechanical Engineering Education: A
Study on Mechanics-Focused Conceptual Understanding
- arxiv url: http://arxiv.org/abs/2401.12983v1
- Date: Sat, 13 Jan 2024 19:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 15:45:01.819879
- Title: Assessing Large Language Models in Mechanical Engineering Education: A
Study on Mechanics-Focused Conceptual Understanding
- Title(参考訳): 機械工学教育における大規模言語モデルの評価 : メカニクスに着目した概念理解に関する研究
- Authors: Jie Tian, Jixin Hou, Zihao Wu, Peng Shu, Zhengliang Liu, Yujie Xiang,
Beikang Gu, Nicholas Filla, Yiwei Li, Ning Liu, Xianyan Chen, Keke Tang,
Tianming Liu, and Xianqiao Wang
- Abstract要約: 本研究では,機械工学の領域における概念問題に対するLLM(Large Language Models)の能力について,メカニクスに焦点をあてて検討する。
ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。
その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。
- 参考スコア(独自算出の注目度): 25.769293445579816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study is a pioneering endeavor to investigate the capabilities of Large
Language Models (LLMs) in addressing conceptual questions within the domain of
mechanical engineering with a focus on mechanics. Our examination involves a
manually crafted exam encompassing 126 multiple-choice questions, spanning
various aspects of mechanics courses, including Fluid Mechanics, Mechanical
Vibration, Engineering Statics and Dynamics, Mechanics of Materials, Theory of
Elasticity, and Continuum Mechanics. Three LLMs, including ChatGPT (GPT-3.5),
ChatGPT (GPT-4), and Claude (Claude-2.1), were subjected to evaluation against
engineering faculties and students with or without mechanical engineering
background. The findings reveal GPT-4's superior performance over the other two
LLMs and human cohorts in answering questions across various mechanics topics,
except for Continuum Mechanics. This signals the potential future improvements
for GPT models in handling symbolic calculations and tensor analyses. The
performances of LLMs were all significantly improved with explanations prompted
prior to direct responses, underscoring the crucial role of prompt engineering.
Interestingly, GPT-3.5 demonstrates improved performance with prompts covering
a broader domain, while GPT-4 excels with prompts focusing on specific
subjects. Finally, GPT-4 exhibits notable advancements in mitigating input
bias, as evidenced by guessing preferences for humans. This study unveils the
substantial potential of LLMs as highly knowledgeable assistants in both
mechanical pedagogy and scientific research.
- Abstract(参考訳): 本研究は,機械工学の領域における概念的問題に取り組む上で,大言語モデル(llm)の能力を検討するための先駆的な試みである。
実験は, 流体力学, 機械振動, 工学的静的と力学, 材料力学, 弾性理論, 連続力学など, 力学科の様々な側面にまたがる, 126問の多元性問題を含む手作業による試験である。
ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。
その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。
これは記号計算とテンソル解析を扱うgptモデルの将来的な改善を意味する。
LLMの性能は、直接応答する前の説明によって大幅に改善され、プロンプトエンジニアリングの重要な役割が強調された。
興味深いことに、GPT-3.5はより広い領域をカバーするプロンプトで、GPT-4は特定の対象に焦点を当てたプロンプトで優れている。
最後に、GPT-4は入力バイアスを緩和する顕著な進歩を示す。
この研究は、機械教育と科学研究の両方において、LLMが高度な知識を持つアシスタントとして有意義な可能性を明らかにしている。
関連論文リスト
- VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [32.811840681428464]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case
Study [31.243696199790413]
大規模言語モデル(LLM)は、汎用アシスタントとして様々なクエリに応答する強力な能力を示している。
連続的マルチモーダル大言語モデル(MLLM)は、視覚信号を知覚する能力を持つLLMに権限を与える。
GPT-4(Generative Pre-trained Transformers)のローンチは、研究コミュニティに大きな関心を集めている。
論文 参考訳(メタデータ) (2024-01-04T08:53:08Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - ChatGPT & Mechanical Engineering: Examining performance on the FE
Mechanical Engineering and Undergraduate Exams [0.0]
本研究では,機械工学の分野におけるChatGPTの機能について検討する。
教室やプロの環境での利用事例や落とし穴を調べることを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:12:26Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Summary of ChatGPT-Related Research and Perspective Towards the Future
of Large Language Models [40.557611946967086]
本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来の応用について調査する。
各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,および分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
論文 参考訳(メタデータ) (2023-04-04T15:01:06Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。