論文の概要: Mechanisms of Matter: Language Inferential Benchmark on Physicochemical Hypothesis in Materials Synthesis
- arxiv url: http://arxiv.org/abs/2509.25281v1
- Date: Mon, 29 Sep 2025 07:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.229171
- Title: Mechanisms of Matter: Language Inferential Benchmark on Physicochemical Hypothesis in Materials Synthesis
- Title(参考訳): 物質のメカニズム:材料合成における物理化学的仮説の言語推論ベンチマーク
- Authors: Yingming Pu, Tao Lin, Hongyu Chen,
- Abstract要約: 物質合成のための有効な科学的仮説を生成するための大規模言語モデルの能力は、ほとんど定量化されていない。
本研究では、8つのナノマテリアル合成ドメインにわたるLCM生成仮説を評価するベンチマークであるMatterMechを紹介する。
LLMは抽象論理に精通しているが、基礎的な物理化学的原理の根拠にはならない。
- 参考スコア(独自算出の注目度): 9.216546947535244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of Large Language Models (LLMs) to generate valid scientific hypotheses for materials synthesis remains largely unquantified, hindered by the absence of benchmarks probing physicochemical logics reasoning. To address this, we introduce MatterMech, a benchmark for evaluating LLM-generated hypotheses across eight nanomaterial synthesis domains. Our analysis reveals a critical disconnect: LLMs are proficient in abstract logic yet fail to ground their reasoning in fundamental physicochemical principles. We demonstrate that our proposed principle-aware prompting methodology substantially outperforms standard Chain-of-Thought, enhancing both hypothesis accuracy and computational efficiency. This work provides a methodological framework to advance LLMs toward reliable scientific hypothesis generation in materials science. The MatterMech benchmark and associated code is publicly available at \href{https://github.com/amair-lab/MatterMech}{GitHub}.
- Abstract(参考訳): 材料合成のための有効な科学的仮説を生成するためのLarge Language Models (LLMs) の能力は、物理化学的論理を推論するベンチマークが欠如しているために、ほとんど定量化されていない。
そこで本研究では,8つのナノマテリアル合成ドメインにまたがるLCM生成仮説を評価するベンチマークであるMatterMechを紹介する。
LLMは抽象論理に精通しているが、基礎的な物理化学的原理の根拠にはならない。
提案手法は,仮説の精度と計算効率を向上し,標準チェーン・オブ・サートを大幅に上回ることを示す。
この研究は、材料科学における信頼性のある科学的仮説生成に向けてLSMを前進させるための方法論的枠組みを提供する。
MatterMechベンチマークと関連するコードは、 \href{https://github.com/amair-lab/MatterMech}{GitHub}で公開されている。
関連論文リスト
- PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [24.52206735857088]
我々は,LLMに基づく科学的推論を厳格に評価するための,新しいベンチマークスイートとシミュレーションプラットフォームであるPhysGymを紹介する。
PhysGymの主な貢献は、エージェントに提供される事前知識のレベルを高度に制御することにある。
ベンチマークにはインタラクティブなシミュレーションが含まれており、エージェントは環境を積極的に調査する必要がある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルはしばしば科学的に妥当だが、実際は無効な情報を生成する。
本稿では, このギャップを埋める手法として, 専門的な科学アシスタントを開発する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [93.64235254640967]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。
詳細な科学的仮説発見の新たな課題を定めている。
本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T16:13:46Z) - LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models [20.800445482814958]
LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。
既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。
本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。
我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
論文 参考訳(メタデータ) (2025-04-14T17:00:13Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。
我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。
LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文 参考訳(メタデータ) (2024-10-09T17:19:58Z) - Leveraging large language models for nano synthesis mechanism explanation: solid foundations or mere conjectures? [12.874860522120326]
我々は,金ナノ粒子合成のメカニズムに着目した775個の多重選択質問からなるベンチマークを開発した。
そこで我々は,評価基準である信頼度に基づくスコア(cスコア)を提案し,出力ロジットを探索し,正解の正確な確率を導出する。
論文 参考訳(メタデータ) (2024-07-12T02:05:59Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。