論文の概要: CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers
- arxiv url: http://arxiv.org/abs/2510.05228v1
- Date: Mon, 06 Oct 2025 18:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.931531
- Title: CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers
- Title(参考訳): CMT-Benchmark: 専門家による凝縮物質理論のベンチマーク
- Authors: Haining Pan, James V. Roggeveen, Erez Berg, Juan Carrasquilla, Debanjan Chowdhury, Surya Ganguli, Federico Ghimenti, Juraj Hasik, Henry Hunt, Hong-Chen Jiang, Mason Kamb, Ying-Jer Kao, Ehsan Khatami, Michael J. Lawler, Di Luo, Titus Neupert, Xiaoliang Qi, Michael P. Brenner, Eun-Ah Kim,
- Abstract要約: CMT-Benchmarkは、縮合理論(CMT)を研究者のレベルでカバーする50の問題のデータセットである。
最高のモデルであるGPT5は問題の30%を解き、平均17モデルの平均は11.4$%である。
このベンチマークは、有能なAI研究アシスタントと家庭教師に向けた開発をガイドするものだと考えています。
- 参考スコア(独自算出の注目度): 11.307995773498975
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have shown remarkable progress in coding and math problem-solving, but evaluation on advanced research-level problems in hard sciences remains scarce. To fill this gap, we present CMT-Benchmark, a dataset of 50 problems covering condensed matter theory (CMT) at the level of an expert researcher. Topics span analytical and computational approaches in quantum many-body, and classical statistical mechanics. The dataset was designed and verified by a panel of expert researchers from around the world. We built the dataset through a collaborative environment that challenges the panel to write and refine problems they would want a research assistant to solve, including Hartree-Fock, exact diagonalization, quantum/variational Monte Carlo, density matrix renormalization group (DMRG), quantum/classical statistical mechanics, and model building. We evaluate LLMs by programmatically checking solutions against expert-supplied ground truth. We developed machine-grading, including symbolic handling of non-commuting operators via normal ordering. They generalize across tasks too. Our evaluations show that frontier models struggle with all of the problems in the dataset, highlighting a gap in the physical reasoning skills of current LLMs. Notably, experts identified strategies for creating increasingly difficult problems by interacting with the LLMs and exploiting common failure modes. The best model, GPT5, solves 30\% of the problems; average across 17 models (GPT, Gemini, Claude, DeepSeek, Llama) is 11.4$\pm$2.1\%. Moreover, 18 problems are solved by none of the 17 models, and 26 by at most one. These unsolved problems span Quantum Monte Carlo, Variational Monte Carlo, and DMRG. Answers sometimes violate fundamental symmetries or have unphysical scaling dimensions. We believe this benchmark will guide development toward capable AI research assistants and tutors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コーディングと数学の問題解決において顕著な進歩を見せているが、ハードサイエンスにおける高度な研究レベルの問題に対する評価は依然として乏しい。
このギャップを埋めるために、専門家研究者のレベルで凝縮物質理論(CMT)をカバーする50の問題のデータセットであるCMT-Benchmarkを提示する。
トピックは、量子多体および古典統計力学における解析的および計算的アプローチにまたがる。
データセットは世界中の専門家によるパネルによって設計され、検証された。
私たちは、Hartree-Fock、正確な対角化、量子/偏差モンテカルロ、密度行列再正規化グループ(DMRG)、量子/古典統計力学、モデル構築など、研究アシスタントが解決したい問題を書き、洗練するためにパネルに挑戦する共同環境を通じてデータセットを構築しました。
我々は、専門家が供給する地上の真実に対する解決策をプログラム的に検証することでLSMを評価する。
我々は,通常の順序付けによる非可換演算子の記号処理を含む機械グレーディングを開発した。
彼らはタスクをまたいで一般化する。
我々の評価では、フロンティアモデルがデータセットのすべての問題に苦労していることを示し、現在のLLMの物理的推論スキルのギャップを浮き彫りにしている。
特に専門家は、LSMと対話し、共通の障害モードを活用することで、ますます難しい問題を生み出すための戦略を特定した。
最高のモデルであるGPT5は問題の30%を解き、平均17モデル(GPT、Gemini、Claude、DeepSeek、Llama)の平均は11.4$\pm$2.1\%である。
さらに、18の問題は17モデルのどれかによって解決され、26の問題は少なくとも1つのモデルによって解決される。
これらの未解決問題は、量子モンテカルロ、変分モンテカルロ、DMRGにまたがる。
答えは時に基本的な対称性に反するか、非物理的スケーリング次元を持つ。
このベンチマークは、有能なAI研究アシスタントと家庭教師に向けた開発をガイドするものだと考えています。
関連論文リスト
- IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation [4.991157581428135]
IMProofBenchは、専門家数学者によって開発された39のピアレビューされた問題からなるプライベートベンチマークである。
それぞれの問題は詳細な証明を必要とし、最終的な答えを持つサブプロブレムと組み合わせられる。
以前のベンチマークとは異なり、評価設定は現実的な研究環境をシミュレートする。
論文 参考訳(メタデータ) (2025-09-30T10:50:37Z) - EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing [45.89558878854675]
EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。
連続的な自己イテレーションによって大量の高次問題を生成することができる。
また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
論文 参考訳(メタデータ) (2025-08-18T15:24:10Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。
本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文 参考訳(メタデータ) (2024-06-26T13:02:35Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。