Fugu-MT 論文翻訳(概要): Superstudent intelligence in thermodynamics

論文の概要: Superstudent intelligence in thermodynamics

arxiv url: http://arxiv.org/abs/2506.09822v1
Date: Wed, 11 Jun 2025 15:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.075617
Title: Superstudent intelligence in thermodynamics
Title（参考訳）: 熱力学における迷信知能
Authors: Rebecca Loubet, Pascal Zittlau, Marco Hoffmann, Luisa Vollmer, Sophie Fellenz, Heike Leitte, Fabian Jirasek, Johannes Lenhard, Hans Hasse,
Abstract要約: OpenAIの大規模言語モデルo3は、すべての学生を熱力学の試験に駆り立てた。ゼロショットモードでは、モデルo3が全ての問題を正しく解決しました。機械は複雑なタスクに精通し、通常は人間の知的能力の証明とみなされる。
参考スコア（独自算出の注目度）: 2.9585218095390933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this short note, we report and analyze a striking event: OpenAI's large language model o3 has outwitted all students in a university exam on thermodynamics. The thermodynamics exam is a difficult hurdle for most students, where they must show that they have mastered the fundamentals of this important topic. Consequently, the failure rates are very high, A-grades are rare - and they are considered proof of the students' exceptional intellectual abilities. This is because pattern learning does not help in the exam. The problems can only be solved by knowledgeably and creatively combining principles of thermodynamics. We have given our latest thermodynamics exam not only to the students but also to OpenAI's most powerful reasoning model, o3, and have assessed the answers of o3 exactly the same way as those of the students. In zero-shot mode, the model o3 solved all problems correctly, better than all students who took the exam; its overall score was in the range of the best scores we have seen in more than 10,000 similar exams since 1985. This is a turning point: machines now excel in complex tasks, usually taken as proof of human intellectual capabilities. We discuss the consequences this has for the work of engineers and the education of future engineers.
Abstract（参考訳）: この記事では,OpenAIの大規模言語モデルo3が,熱力学の大学試験において,すべての学生に勝っていることを報告し,分析する。熱力学試験は、多くの学生にとって難しいハードルであり、この重要なトピックの基礎を習得したことを示さなければならない。その結果、失敗率は極めて高く、Aグレードは稀であり、学生の異常な知的能力の証明と見なされている。これは、パターン学習が試験に役に立たないためです。この問題は熱力学の原理を知識と創造的に組み合わせることでのみ解決できる。我々は,最新の熱力学試験を学生だけでなく,OpenAIの最も強力な推論モデルであるo3にも提供し,o3の回答を学生とまったく同じ方法で評価した。ゼロショットモードでは、モデルo3が全ての問題を正しく解き、試験を受けたすべての生徒より優れている。機械は複雑なタスクに精通し、通常は人間の知的能力の証明とみなされる。この結果がエンジニアの仕事や将来のエンジニアの教育に与える影響について論じる。

関連論文リスト

PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットであるこれには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。 DeepMath-103Kは一般化可能な推論の進展を促進する。
論文参考訳（メタデータ） (2025-04-15T17:59:51Z)
PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving [38.44445350202585]
大学レベルの物理問題解決のための総合的なベンチマークであるPHYSICSを紹介する。古典力学、量子力学、熱力学、統計力学、電磁気学、原子物理学、光学の6つの中核領域をカバーする1297のエキスパート注釈付き問題を含んでいる。
論文参考訳（メタデータ） (2025-03-26T06:21:56Z)
Using machine learning to measure evidence of students' sensemaking in physics courses [5.509349550209279]
教育において、問題解決の正しさは、しばしば学生の学習と不適切に混同される。本研究では,物理問題に対する解法を記述した説明書から,学生の身体感覚形成の証拠を定量化する手法を提案する。我々は,ロジスティック回帰を用いた3つのユニークな言語エンコーダを実装し,2023年のタフツ大学の入門物理学講座の実際の学生385名について,デプロイ可能性の分析を行った。
論文参考訳（メタデータ） (2025-03-19T18:49:21Z)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。問題は平均8.1の解ステップが必要で、ハードは15.6である。 Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳（メタデータ） (2025-02-17T17:24:14Z)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文参考訳（メタデータ） (2025-02-01T06:42:02Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文参考訳（メタデータ） (2022-06-29T18:54:49Z)
The problem of engines in statistical physics [62.997667081978825]
エンジンは、外部の不均衡を犠牲にして、仕事を循環的に生成できるオープンシステムである。オープン量子系の理論の最近の進歩は、自律エンジンのより現実的な記述を示している。運動方程式に外部荷重力と熱雑音を組み込む方法を示す。
論文参考訳（メタデータ） (2021-08-17T03:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。