Fugu-MT 論文翻訳(概要): Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding

論文の概要: Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding

arxiv url: http://arxiv.org/abs/2401.12983v1
Date: Sat, 13 Jan 2024 19:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-28 15:45:01.819879
Title: Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding
Title（参考訳）: 機械工学教育における大規模言語モデルの評価 : メカニクスに着目した概念理解に関する研究
Authors: Jie Tian, Jixin Hou, Zihao Wu, Peng Shu, Zhengliang Liu, Yujie Xiang, Beikang Gu, Nicholas Filla, Yiwei Li, Ning Liu, Xianyan Chen, Keke Tang, Tianming Liu, and Xianqiao Wang
Abstract要約: 本研究では,機械工学の領域における概念問題に対するLLM(Large Language Models)の能力について,メカニクスに焦点をあてて検討する。 ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。
参考スコア（独自算出の注目度）: 25.769293445579816
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This study is a pioneering endeavor to investigate the capabilities of Large Language Models (LLMs) in addressing conceptual questions within the domain of mechanical engineering with a focus on mechanics. Our examination involves a manually crafted exam encompassing 126 multiple-choice questions, spanning various aspects of mechanics courses, including Fluid Mechanics, Mechanical Vibration, Engineering Statics and Dynamics, Mechanics of Materials, Theory of Elasticity, and Continuum Mechanics. Three LLMs, including ChatGPT (GPT-3.5), ChatGPT (GPT-4), and Claude (Claude-2.1), were subjected to evaluation against engineering faculties and students with or without mechanical engineering background. The findings reveal GPT-4's superior performance over the other two LLMs and human cohorts in answering questions across various mechanics topics, except for Continuum Mechanics. This signals the potential future improvements for GPT models in handling symbolic calculations and tensor analyses. The performances of LLMs were all significantly improved with explanations prompted prior to direct responses, underscoring the crucial role of prompt engineering. Interestingly, GPT-3.5 demonstrates improved performance with prompts covering a broader domain, while GPT-4 excels with prompts focusing on specific subjects. Finally, GPT-4 exhibits notable advancements in mitigating input bias, as evidenced by guessing preferences for humans. This study unveils the substantial potential of LLMs as highly knowledgeable assistants in both mechanical pedagogy and scientific research.
Abstract（参考訳）: 本研究は,機械工学の領域における概念的問題に取り組む上で,大言語モデル(llm)の能力を検討するための先駆的な試みである。実験は, 流体力学, 機械振動, 工学的静的と力学, 材料力学, 弾性理論, 連続力学など, 力学科の様々な側面にまたがる, 126問の多元性問題を含む手作業による試験である。 ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude(Claude-2.1)の3つのLCMは、機械工学のバックグラウンドの有無にかかわらず、工学の能力や学生に対して評価された。その結果, GPT-4 は他の2つの LLM およびヒトコホートよりも優れた性能を示し, 連続力学を除く様々な力学分野の質問に答えることができた。これは記号計算とテンソル解析を扱うgptモデルの将来的な改善を意味する。 LLMの性能は、直接応答する前の説明によって大幅に改善され、プロンプトエンジニアリングの重要な役割が強調された。興味深いことに、GPT-3.5はより広い領域をカバーするプロンプトで、GPT-4は特定の対象に焦点を当てたプロンプトで優れている。最後に、GPT-4は入力バイアスを緩和する顕著な進歩を示す。この研究は、機械教育と科学研究の両方において、LLMが高度な知識を持つアシスタントとして有意義な可能性を明らかにしている。

関連論文リスト

PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [32.811840681428464]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文参考訳（メタデータ） (2024-09-10T01:20:26Z)
Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文参考訳（メタデータ） (2024-08-22T07:33:11Z)
Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study [31.243696199790413]
大規模言語モデル(LLM)は、汎用アシスタントとして様々なクエリに応答する強力な能力を示している。連続的マルチモーダル大言語モデル(MLLM)は、視覚信号を知覚する能力を持つLLMに権限を与える。 GPT-4(Generative Pre-trained Transformers)のローンチは、研究コミュニティに大きな関心を集めている。
論文参考訳（メタデータ） (2024-01-04T08:53:08Z)
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。 GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。 GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文参考訳（メタデータ） (2023-09-29T17:34:51Z)
ChatGPT & Mechanical Engineering: Examining performance on the FE Mechanical Engineering and Undergraduate Exams [0.0]
本研究では,機械工学の分野におけるChatGPTの機能について検討する。教室やプロの環境での利用事例や落とし穴を調べることを目的としている。
論文参考訳（メタデータ） (2023-09-26T20:12:26Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
Performance of ChatGPT on the US Fundamentals of Engineering Exam: Comprehensive Assessment of Proficiency and Potential Implications for Professional Environmental Engineering Practice [0.0]
本研究は, GPT-4 モデルである ChatGPT を用いて, 工学基礎(FE) 環境評価における良好な性能を実現することの実現可能性と有効性について検討する。この結果は、ChatGPTモデルの連続反復における数学的能力の顕著な改善を反映し、複雑な工学的問題を解く可能性を示している。
論文参考訳（メタデータ） (2023-04-20T16:54:34Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
Summary of ChatGPT-Related Research and Perspective Towards the Future of Large Language Models [40.557611946967086]
本稿では、ChatGPT関連研究(GPT-3.5およびGPT-4)、GPTシリーズの最先端の大規模言語モデル(LLM)、および様々な領域にわたる将来の応用について調査する。各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,および分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。
論文参考訳（メタデータ） (2023-04-04T15:01:06Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。