論文の概要: AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
- arxiv url: http://arxiv.org/abs/2510.04704v2
- Date: Tue, 07 Oct 2025 04:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.493644
- Title: AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
- Title(参考訳): AtomWorld: 結晶材料の大規模言語モデルにおける空間推論の評価ベンチマーク
- Authors: Taoyuze Lv, Alexander Chen, Fengyu Xie, Chu Wu, Jeffrey Meng, Dongzhan Zhou, Bram Hoex, Zhicheng Zhong, Tong Xie,
- Abstract要約: 我々は、結晶情報ファイル(CIF)に基づくタスクに基づいて、大言語モデル(LLM)を評価するためのAtomWorldベンチマークを導入する。
実験の結果,これらのモデルでは構造修正作業や基本的なCIF形式理解においても頻繁にエラーが発生していることがわかった。
これらの標準化されたタスクを定義することで、AtomWorldは、堅牢な原子スケールモデリングに向けてLLMを進めるための基盤を築きます。
- 参考スコア(独自算出の注目度): 40.06511294882352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at textual reasoning and are beginning to develop spatial understanding, prompting the question of whether these abilities can be combined for complex, domain-specific tasks. This question is essential in fields like materials science, where deep understanding of 3D atomic structures is fundamental. While initial studies have successfully applied LLMs to tasks involving pure crystal generation or coordinate understandings, a standardized benchmark to systematically evaluate their core reasoning abilities across diverse atomic structures has been notably absent. To address this gap, we introduce the AtomWorld benchmark to evaluate LLMs on tasks based in Crystallographic Information Files (CIFs), a standard structure representation format. These tasks, including structural editing, CIF perception, and property-guided modeling, reveal a critical limitation: current models, despite establishing promising baselines, consistently fail in structural understanding and spatial reasoning. Our experiments show that these models make frequent errors on structure modification tasks, and even in the basic CIF format understandings, potentially leading to cumulative errors in subsequent analysis and materials insights. By defining these standardized tasks, AtomWorld lays the ground for advancing LLMs toward robust atomic-scale modeling, crucial for accelerating materials research and automating scientific workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト推論において優れており、空間的理解の発達を始めており、複雑なドメイン固有のタスクにこれらの能力を組み合わせることができるかどうかという疑問を提起している。
この問題は、3D原子構造の深い理解が基本となる材料科学のような分野において不可欠である。
最初の研究は、純粋な結晶生成や座標理解を含むタスクにLSMを適用することに成功したが、様々な原子構造にまたがるコア推論能力を体系的に評価するための標準化されたベンチマークは、特に欠落している。
このギャップに対処するために、標準的な構造表現形式であるCrystallographic Information Files (CIFs) に基づくタスクに基づいてLLMを評価するためのAtomWorldベンチマークを導入する。
構造的編集、CIF知覚、プロパティ誘導モデリングを含むこれらのタスクは、現在のモデルは、有望なベースラインを確立するにもかかわらず、構造的理解と空間的推論において一貫して失敗する。
実験により,これらのモデルが構造修正タスクや基本的なCIF形式理解においても頻繁な誤りを犯し,その後の解析や材料洞察の累積誤差につながる可能性が示唆された。
これらの標準化されたタスクを定義することにより、AtomWorldはLLMを堅牢な原子スケールモデリングへと前進させる基盤を築き、材料研究の加速と科学ワークフローの自動化に不可欠である。
関連論文リスト
- A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts [2.0391237204597368]
このフレームワークは、オブジェクト認識、絶対位置と相対位置、属性識別といった基本的な概念に焦点を当てている。
提案するフレームワークは、多種多様な包括的なデータセットを生成するための貴重な手段を提供する。
論文 参考訳(メタデータ) (2025-09-17T18:37:24Z) - DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.596558700597644]
大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Less can be more for predicting properties with large language models [5.561723952524538]
本稿では,座標分類データの座標情報から学習できる大規模言語モデルの限界について報告する。
LLMはカテゴリパターンに長けながら座標情報の取得に一貫して失敗していることがわかった。
本研究は, 構造効果に支配される材料特性予測タスクにおける即時的な実践的意味を示唆するものである。
論文 参考訳(メタデータ) (2024-06-25T05:45:07Z) - Learning Structural Causal Models through Deep Generative Models: Methods, Guarantees, and Challenges [42.0626213927983]
基礎となるディープラーニングコンポーネントや構造因果モデルに固有の仮説、保証、アプリケーションを分析する。
深い構造因果モデリングの分野における課題とオープンな疑問を強調します。
論文 参考訳(メタデータ) (2024-05-08T12:56:33Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。