論文の概要: ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19758v1
- Date: Wed, 25 Mar 2026 13:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.050833
- Title: ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models
- Title(参考訳): ThermoQA:大規模言語モデルにおける熱力学推論評価のための3層ベンチマーク
- Authors: Kemal Düzkar,
- Abstract要約: 本稿では,3段階のオープンエンドエンジニアリング熱力学問題のベンチマークであるThermoQAを紹介する。
6つのフロンティアLSMはそれぞれ3つの独立したランで評価される。
複合リーダーボードはClaude Opus 4.6 (94.1%)、GPT-5.4 (93.1%)、Gemini 3.1 Pro (92.5%) が率いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ThermoQA, a benchmark of 293 open-ended engineering thermodynamics problems in three tiers: property lookups (110 Q), component analysis (101 Q), and full cycle analysis (82 Q). Ground truth is computed programmatically from CoolProp 7.2.0, covering water, R-134a, and variable-cp air. Six frontier LLMs are evaluated across three independent runs each. The composite leaderboard is led by Claude Opus 4.6 (94.1%), GPT-5.4 (93.1%), and Gemini 3.1 Pro (92.5%). Cross-tier degradation ranges from 2.8 pp (Opus) to 32.5 pp (MiniMax), confirming that property memorization does not imply thermodynamic reasoning. Supercritical water, R-134a refrigerant, and combined-cycle gas turbine analysis serve as natural discriminators with 40-60 pp performance spreads. Multi-run sigma ranges from +/-0.1% to +/-2.5%, quantifying reasoning consistency as a distinct evaluation axis. Dataset and code are open-source at https://huggingface.co/datasets/olivenet/thermoqa
- Abstract(参考訳): 本報告では,プロパティルックアップ (110 Q), コンポーネント分析 (101 Q), フルサイクル解析 (82 Q) の3層に293個のオープンエンドエンジニアリング熱力学問題をベンチマークした。
地上の真理はCoolProp 7.2.0から計算され、水、R-134a、可変cp空気をカバーしている。
6つのフロンティアLSMはそれぞれ3つの独立したランで評価される。
複合リーダーボードはClaude Opus 4.6 (94.1%)、GPT-5.4 (93.1%)、Gemini 3.1 Pro (92.5%) が主導している。
層間劣化は2.8 pp (Opus) から32.5 pp (MiniMax) まで変化しており、特性記憶が熱力学的な推論を含まないことを確認している。
超臨界水、R-134a冷媒、複合サイクルガスタービン分析は、40-60ppp性能の自然判別器として機能する。
マルチランシグマは+/-0.1%から+/-2.5%の範囲で、推論の一貫性を異なる評価軸として定量化する。
データセットとコードはhttps://huggingface.co/datasets/olivenet/thermoqaでオープンソース化される
関連論文リスト
- ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
我々は神経科学モデルを統合した多層メモリアーキテクチャであるZenBrainを紹介する。
9つのアルゴリズムで編成された7つのメモリ層(作業層、短期層、エピソード層、意味層、手続き層、コア層、基礎層)を実装している。
LongMemEvalでは、ZenBrainはシステム審査員12人の中で最高位である。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Process Supervision via Verbal Critique Improves Reasoning in Large Language Models [1.472161528588343]
Verbal Process Supervision (VPS) は、より強力なスーパーバイザから構造化された自然言語批判を使用して、反復的な生成-批判-再定義ループを丸い予算Rまでガイドする、トレーニング不要のフレームワークである。
VPSはGPQA Diamond、AIME 2025、LiveCodeBench V6の3つの主要な結果を得る。
これらの結果は、推論時間スケーリングの新たな軸として、批判的な粒度を確立する。
論文 参考訳(メタデータ) (2026-04-23T12:36:12Z) - Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds [0.0]
本稿では,知識グラフ構築と活用のためのゼロショットパイプラインの実証的研究について述べる。
外部ベンチマーク(DocRED、HotpotQA)、WebQuestionsSPスタイルの合成データ、RAGAS評価フレームワークを自動パイプラインに統合する。
文書レベルの関係では, ゼロショットで0.70$pm$0.041のF1を達成するのに対し, 教師付きDREEAMでは0.80となる。
論文 参考訳(メタデータ) (2026-04-13T07:20:21Z) - Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models [0.49109372384514843]
4つの温度設定でチェーン・オブ・シンドロームとゼロショット・プロンプトを系統的に評価した。
ゼロショットプロンプトは中等度温度でピーク性能を達成する。
論文 参考訳(メタデータ) (2026-03-18T00:36:20Z) - Coherence Dispersion and Temperature Scales in a Quantum-Biology Toy Model [51.56484100374058]
量子コヒーレンス(英語版)が任意の量子状態のいくつかの外対角要素の間にどのように散乱するかを考察する。
平衡外システムに焦点をあてることで、我々は開発されたフレームワークを使用して、セル・エネルギティクスの単純化されたモデルに対処する。
論文 参考訳(メタデータ) (2025-12-13T14:21:34Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - Not All Correct Answers Are Equal: Why Your Distillation Source Matters [16.441081996257576]
蒸留は、オープンソースの言語モデルの推論能力を高めるための実用的で効果的なアプローチとして登場した。
我々は,最先端の教師モデルであるAM-Thinking-v1,Qwen3-235B-A22B,DeepSeek-R1の3つの出力を1億9900万クエリの共有コーパスで収集した。
各データセットでトレーニングされた学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークに基づいて評価される。
論文 参考訳(メタデータ) (2025-05-20T15:00:51Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - DistilPose: Tokenized Pose Regression with Heatmap Distillation [81.21273854769765]
本研究では,熱マップに基づく手法と回帰に基づく手法のギャップを埋める,DistilPoseと呼ばれる新しいポーズ推定フレームワークを提案する。
DistilPoseは、教師モデル(ヒートマップベース)から生徒モデル(レグレッションベース)への知識伝達を、Token-distilling (TDE) と Simulated Heatmaps を通じて最大化する。
論文 参考訳(メタデータ) (2023-03-04T16:56:29Z) - Impact of Thermal Throttling on Long-Term Visual Inference in a
CPU-based Edge Device [0.0]
畳み込みニューラルネットワーク(CNN)の重大計算負荷は、熱収縮を招き、数秒で性能が低下する可能性がある。
4つのソフトウェアフレームワークと2つのオペレーティングシステム上で5つのCNNモデルを実行し、アクティブな冷却を行わない80のケースの長期的パフォーマンスを報告し、分析した。
論文 参考訳(メタデータ) (2020-10-13T11:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。