論文の概要: From Canonical to Complex: Benchmarking LLM Capabilities in Undergraduate Thermodynamics
- arxiv url: http://arxiv.org/abs/2508.21452v1
- Date: Fri, 29 Aug 2025 09:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.991195
- Title: From Canonical to Complex: Benchmarking LLM Capabilities in Undergraduate Thermodynamics
- Title(参考訳): カノニカルからコンプレックスへ:大学院熱力学におけるLCM能力のベンチマーク
- Authors: Anna Geißler, Luca-Sophie Bien, Friedrich Schöppler, Tobias Hertel,
- Abstract要約: 大型言語モデル (LLMs) は、科学教育における指導支援としてますます考えられている。
しかし、教師なしの教員養成のための準備が整ったかは定かではない。
ここでは,50itemの大学生熱力学質問応答ベンチマークUTQAを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly considered as tutoring aids in science education. Yet their readiness for unsupervised use in undergraduate instruction remains uncertain, as reliable teaching requires more than fluent recall: it demands consistent, principle-grounded reasoning. Thermodynamics, with its compact laws and subtle distinctions between state and path functions, reversibility, and entropy, provides an ideal testbed for evaluating such capabilities. Here we present UTQA, a 50-item undergraduate thermodynamics question answering benchmark, covering ideal-gas processes, reversibility, and diagram interpretation. No leading 2025-era model exceeded our 95\% competence threshold: the best LLMs achieved 82\% accuracy, with text-only items performing better than image reasoning tasks, which often fell to chance levels. Prompt phrasing and syntactic complexity showed modest to little correlation with performance. The gap concentrates in finite-rate/irreversible scenarios and in binding visual features to thermodynamic meaning, indicating that current LLMs are not yet suitable for unsupervised tutoring in this domain.
- Abstract(参考訳): 大型言語モデル (LLMs) は、科学教育における指導支援としてますます考えられている。
しかし、教師なしの教師なしの授業への準備は、信頼性のある教育には、流動的なリコール以上のものが必要であり、一貫性と原則に基づく推論が要求されるため、依然として不確実である。
熱力学は、そのコンパクトな法則と状態と経路関数の微妙な区別、可逆性、エントロピーにより、そのような能力を評価するのに理想的なテストベッドを提供する。
ここでは, 理想ガスプロセス, 可逆性, ダイアグラム解釈を網羅した50等級熱力学解答ベンチマークUTQAを提案する。
最高のLLMは82%の精度を達成し、テキストのみのアイテムは画像推論タスクよりも優れたパフォーマンスを示しました。
プロンプトのフレーズと構文の複雑さは, 性能とはほとんど相関がみられなかった。
このギャップは有限レート/可逆的なシナリオと熱力学的意味への視覚的特徴の結合に集中しており、現在のLLMがこの領域における教師なし学習にはまだ適していないことを示している。
関連論文リスト
- Feasibility with Language Models for Open-World Compositional Zero-Shot Learning [96.6544564242316]
オープンワールド構成ゼロショット学習では、全ての状態オブジェクトの組み合わせは目に見えないクラスと見なされる。
本研究は、外部補助知識を用いて状態-対象の組み合わせの実現可能性を決定することに焦点を当てる。
論文 参考訳(メタデータ) (2025-05-16T12:37:08Z) - Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization [47.04132451658664]
我々の能力は、数学的および自由形式の自然推論のタスクにおいて、教師付きと競合する性能を達成します。
教師付き信号がなければ、Qwen2.5-Math-7B Baseの精度は30.7%から48.1%に向上する。
論文 参考訳(メタデータ) (2025-04-08T08:48:51Z) - Order-theoretic models for decision-making: Learning, optimization, complexity and computation [0.0]
インテリジェントシステムの研究は、経済合理性の観点から行動を説明する。
この論文の第一の目的は、インテリジェントシステムの研究におけるこれらの結果の適用性を明らかにすることである。
論文 参考訳(メタデータ) (2024-06-15T20:20:43Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - No Train Still Gain. Unleash Mathematical Reasoning of Large Language
Models with Monte Carlo Tree Search Guided by Energy Function [3.0299876288833345]
大きな言語モデル(LLM)は、印象的な言語理解と文脈学習能力を示している。
LLMは、解の確率が高いにもかかわらず、正しい推論ステップと答えを生成するのにしばしば苦労する。
モンテカルロ木探索 (MCTS) と軽量エネルギー関数を組み込んだ決定ステップのランク付け手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T13:10:54Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。