論文の概要: All that structure matches does not glitter
- arxiv url: http://arxiv.org/abs/2509.12178v1
- Date: Mon, 15 Sep 2025 17:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.432747
- Title: All that structure matches does not glitter
- Title(参考訳): 構造が一致しても光ることはない
- Authors: Maya M. Martirossyan, Thomas Egg, Philipp Hoellmer, George Karypis, Mark Transtrum, Adrian Roitberg, Mingjie Liu, Richard G. Hennig, Ellad B. Tadmor, Stefano Martiniani,
- Abstract要約: 材料、特に結晶の生成的進歩は、新しい構造の予測を変換する可能性を持っている。
本稿では,結晶材料予測とベンチマーク指標を可能にする共通データセットについて検討する。
- 参考スコア(独自算出の注目度): 22.35926023120703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models for materials, especially inorganic crystals, hold potential to transform the theoretical prediction of novel compounds and structures. Advancement in this field depends critically on robust benchmarks and minimal, information-rich datasets that enable meaningful model evaluation. This paper critically examines common datasets and reported metrics for a crystal structure prediction task$\unicode{x2014}$generating the most likely structures given the chemical composition of a material. We focus on three key issues: First, materials datasets should contain unique crystal structures; for example, we show that the widely-utilized carbon-24 dataset only contains $\approx$40% unique structures. Second, materials datasets should not be split randomly if polymorphs of many different compositions are numerous, which we find to be the case for the perov-5 dataset. Third, benchmarks can mislead if used uncritically, e.g., reporting a match rate metric without considering the structural variety exhibited by identical building blocks. To address these oft-overlooked issues, we introduce several fixes. We provide revised versions of the carbon-24 dataset: one with duplicates removed, one deduplicated and split by number of atoms $N$, and two containing only identical structures but with different unit cells. We also propose a new split for the perov-5 dataset which ensures polymorphs are grouped within each split subset, setting a more sensible standard for benchmarking model performance. Finally, we present METRe and cRMSE, new model evaluation metrics that can correct existing issues with the match rate metric.
- Abstract(参考訳): 材料、特に無機結晶の生成モデルは、新しい化合物や構造の理論的予測を変換する可能性を持っている。
この分野での進歩は、堅牢なベンチマークと、意味のあるモデル評価を可能にする最小限の情報豊富なデータセットに依存する。
本稿では, 結晶構造予測タスク$\unicode{x2014}$generating the most likely structure given of a chemical composition。
例えば、広く利用されているCarbon-24データセットには、$\approx$40%のユニークな構造しか含まれていないことを示す。
第2に、多くの異なる組成の多形が多数存在する場合、材料データセットをランダムに分割するべきではない。
第三に、ベンチマークが非批判的に使われる場合、例えば、同一のビルディングブロックで示される構造的多様性を考慮せずに、マッチレートメトリックを報告できる。
こうした見過ごされがちな問題に対処するために、いくつかの修正を導入する。
1つは重複を除去し、1つは原子数$N$で分解し、もう1つは同一構造のみを含むが、異なる単位細胞を含む。
また,perov-5データセットに対して,各分割サブセット内でポリモルフィックがグループ化されることを保証し,モデル性能をベンチマークする上で,より合理的な基準を設定した新たなスプリットを提案する。
最後に,METRe と cRMSE について述べる。
関連論文リスト
- TabStruct: Measuring Structural Fidelity of Tabular Data [28.606994119562163]
我々は,地中構造が存在しない場合でも,構造的忠実度を評価するための新しい評価指標である$textbfglobal utility$を導入する。
また、すべてのデータセット、評価パイプライン、生の結果を含むTabStructベンチマークスイートも提示します。
論文 参考訳(メタデータ) (2025-09-15T14:08:20Z) - Personalized Coupled Tensor Decomposition for Multimodal Data Fusion: Uniqueness and Algorithms [15.520496676392955]
データ融合の課題に対処するパーソナライズされたCTDフレームワークを提案する。
各データセットを2つのコンポーネントの和として表現するフレキシブルモデルが提案されている。
共通成分と異なる成分を計算するための2つのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-12-02T04:19:47Z) - CrysMMNet: Multimodal Representation for Crystal Property Prediction [22.576167897068956]
CrysMMNetは、構造的およびテキスト的表現を融合させ、結晶材料の共同マルチモーダル表現を生成する単純なマルチモーダルフレームワークである。
我々は、CrysMMNetが既存の最先端のベースラインメソッドよりも優れたマージンを持つことを示すために、10の異なるプロパティにわたる2つのベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-09T11:16:01Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Structurally Diverse Sampling Reduces Spurious Correlations in Semantic
Parsing Datasets [51.095144091781734]
本稿では,構造化された出力を持つラベル付きインスタンスプールから,構造的に多様なインスタンス群をサンプリングする新しいアルゴリズムを提案する。
提案アルゴリズムは, 合成テンプレート分割だけでなく, 従来のID分割においても, 従来のアルゴリズムよりも競合的に動作することを示す。
一般に、多種多様な列車集合は、10組のデータセット分割ペアのうち9組で同じ大きさのランダムな訓練集合よりも優れた一般化をもたらす。
論文 参考訳(メタデータ) (2022-03-16T07:41:27Z) - Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:15:58Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。