論文の概要: Assessing Large Language Models in Mechanical Engineering Education: A
Study on Mechanics-Focused Conceptual Understanding
- arxiv url: http://arxiv.org/abs/2401.12983v1
- Date: Sat, 13 Jan 2024 19:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 15:45:01.819879
- Title: Assessing Large Language Models in Mechanical Engineering Education: A
Study on Mechanics-Focused Conceptual Understanding
- Title(参考訳): 機械工学教育における大規模言語モデルの評価 : メカニクスに着目した概念理解に関する研究
- Authors: Jie Tian, Jixin Hou, Zihao Wu, Peng Shu, Zhengliang Liu, Yujie Xiang,
Beikang Gu, Nicholas Filla, Yiwei Li, Ning Liu, Xianyan Chen, Keke Tang,
Tianming Liu, and Xianqiao Wang
- Abstract要約: 本研究では,機械工学の領域における概念問題に対するLLM(Large Language Models)の能力について,メカニクスに焦点をあてて検討する。
ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。
その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。
- 参考スコア(独自算出の注目度): 25.769293445579816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study is a pioneering endeavor to investigate the capabilities of Large
Language Models (LLMs) in addressing conceptual questions within the domain of
mechanical engineering with a focus on mechanics. Our examination involves a
manually crafted exam encompassing 126 multiple-choice questions, spanning
various aspects of mechanics courses, including Fluid Mechanics, Mechanical
Vibration, Engineering Statics and Dynamics, Mechanics of Materials, Theory of
Elasticity, and Continuum Mechanics. Three LLMs, including ChatGPT (GPT-3.5),
ChatGPT (GPT-4), and Claude (Claude-2.1), were subjected to evaluation against
engineering faculties and students with or without mechanical engineering
background. The findings reveal GPT-4's superior performance over the other two
LLMs and human cohorts in answering questions across various mechanics topics,
except for Continuum Mechanics. This signals the potential future improvements
for GPT models in handling symbolic calculations and tensor analyses. The
performances of LLMs were all significantly improved with explanations prompted
prior to direct responses, underscoring the crucial role of prompt engineering.
Interestingly, GPT-3.5 demonstrates improved performance with prompts covering
a broader domain, while GPT-4 excels with prompts focusing on specific
subjects. Finally, GPT-4 exhibits notable advancements in mitigating input
bias, as evidenced by guessing preferences for humans. This study unveils the
substantial potential of LLMs as highly knowledgeable assistants in both
mechanical pedagogy and scientific research.
- Abstract(参考訳): 本研究は,機械工学の領域における概念的問題に取り組む上で,大言語モデル(llm)の能力を検討するための先駆的な試みである。
実験は, 流体力学, 機械振動, 工学的静的と力学, 材料力学, 弾性理論, 連続力学など, 力学科の様々な側面にまたがる, 126問の多元性問題を含む手作業による試験である。
ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。
その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。
これは記号計算とテンソル解析を扱うgptモデルの将来的な改善を意味する。
LLMの性能は、直接応答する前の説明によって大幅に改善され、プロンプトエンジニアリングの重要な役割が強調された。
興味深いことに、GPT-3.5はより広い領域をカバーするプロンプトで、GPT-4は特定の対象に焦点を当てたプロンプトで優れている。
最後に、GPT-4は入力バイアスを緩和する顕著な進歩を示す。
この研究は、機械教育と科学研究の両方において、LLMが高度な知識を持つアシスタントとして有意義な可能性を明らかにしている。
関連論文リスト
- Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case
Study [31.243696199790413]
大規模言語モデル(LLM)は、汎用アシスタントとして様々なクエリに応答する強力な能力を示している。
連続的マルチモーダル大言語モデル(MLLM)は、視覚信号を知覚する能力を持つLLMに権限を与える。
GPT-4(Generative Pre-trained Transformers)のローンチは、研究コミュニティに大きな関心を集めている。
論文 参考訳(メタデータ) (2024-01-04T08:53:08Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering [56.01977227584777]
マルチモーダル・大型モデル (MLM) は視覚的理解の分野を大幅に進歩させた。
しかし、真の課題は知識集約型視覚質問応答(VQA)タスクの領域にある。
本研究は,新たに導入されたGPT-4Vの詳細な評価を提供する。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Unleashing the potential of prompt engineering in Large Language Models:
a comprehensive review [1.7486006087564807]
大規模言語モデル(LLM)の能力を解き放つ上で,迅速なエンジニアリングが果たす重要な役割について論じる。
この調査は、ロールプロンプト、ワンショット、少数ショットプロンプトといった、プロンプトエンジニアリングの基本原則を解明する。
本稿では,異なる視点からプロンプト手法の有効性を評価し,異なる手法を用いて評価する方法について議論する。
論文 参考訳(メタデータ) (2023-10-23T09:15:18Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - ChatGPT & Mechanical Engineering: Examining performance on the FE
Mechanical Engineering and Undergraduate Exams [0.0]
本研究では,機械工学の分野におけるChatGPTの機能について検討する。
教室やプロの環境での利用事例や落とし穴を調べることを目的としている。
論文 参考訳(メタデータ) (2023-09-26T20:12:26Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Performance of ChatGPT on the US Fundamentals of Engineering Exam:
Comprehensive Assessment of Proficiency and Potential Implications for
Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。
この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文 参考訳(メタデータ) (2023-04-20T16:54:34Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Summary of ChatGPT-Related Research and Perspective Towards the Future
of Large Language Models [40.557611946967086]
本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来の応用について調査する。
各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,および分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
論文 参考訳(メタデータ) (2023-04-04T15:01:06Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Understanding Attention in Machine Reading Comprehension [56.72165932439117]
本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。