論文の概要: LeMat-GenBench: A Unified Evaluation Framework for Crystal Generative Models
- arxiv url: http://arxiv.org/abs/2512.04562v1
- Date: Thu, 04 Dec 2025 08:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.067502
- Title: LeMat-GenBench: A Unified Evaluation Framework for Crystal Generative Models
- Title(参考訳): LeMat-GenBench: 結晶生成モデルのための統一評価フレームワーク
- Authors: Siddharth Betala, Samuel P. Gleason, Ali Ramlaoui, Andy Xu, Georgia Channing, Daniel Levy, Clémentine Fourrier, Nikita Kazeev, Chaitanya K. Joshi, Sékou-Oumar Kaba, Félix Therrien, Alex Hernandez-Garcia, Rocío Mercado, N. M. Anoop Krishnan, Alexandre Duval,
- Abstract要約: 結晶生成モデルの統一ベンチマークであるLeMat-GenBenchを紹介する。
私たちはHugging Face上でオープンソース評価スイートと公開リーダボードをリリースし、最新のジェネレーティブモデル12をベンチマークします。
- 参考スコア(独自算出の注目度): 39.63407613127808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative machine learning (ML) models hold great promise for accelerating materials discovery through the inverse design of inorganic crystals, enabling an unprecedented exploration of chemical space. Yet, the lack of standardized evaluation frameworks makes it challenging to evaluate, compare, and further develop these ML models meaningfully. In this work, we introduce LeMat-GenBench, a unified benchmark for generative models of crystalline materials, supported by a set of evaluation metrics designed to better inform model development and downstream applications. We release both an open-source evaluation suite and a public leaderboard on Hugging Face, and benchmark 12 recent generative models. Results reveal that an increase in stability leads to a decrease in novelty and diversity on average, with no model excelling across all dimensions. Altogether, LeMat-GenBench establishes a reproducible and extensible foundation for fair model comparison and aims to guide the development of more reliable, discovery-oriented generative models for crystalline materials.
- Abstract(参考訳): 生成機械学習(ML)モデルは、無機結晶の逆設計による材料発見を加速する大きな約束を持ち、前例のない化学空間の探索を可能にしている。
しかし、標準化された評価フレームワークがないため、これらのMLモデルを有意義に評価し、比較し、さらに発展させることは困難である。
本研究では,結晶材料の生成モデルのための統一ベンチマークであるLeMat-GenBenchを紹介する。
私たちはHugging Faceのオープンソース評価スイートと公開リーダボードの両方をリリースし、最新のジェネレーティブモデル12をベンチマークします。
その結果、安定性の向上は、すべての次元にわたって優れたモデルが存在しない平均的な新規性と多様性の低下につながることが明らかとなった。
同様に、LeMat-GenBenchは、公正なモデル比較のための再現可能で拡張可能な基盤を確立し、結晶材料のより信頼性が高く発見指向の生成モデルの開発を導くことを目的としている。
関連論文リスト
- Transport Novelty Distance: A Distributional Metric for Evaluating Material Generative Models [2.5779675962411654]
本稿では,TNovD(Transport Novelty Distance)を導入し,材料発見に用いる生成モデルを,生成材料の品質と新規性によって共同で評価する。
最適輸送理論のアイデアに基づいて、TNovDはトレーニングの特徴と生成された集合の結合を使用し、閾値によって品質と記憶の仕組みに洗練される。
本研究では, 結晶構造予測に係わる典型的な玩具実験について, 記憶, ノイズ注入, 格子変形などについて評価した。
論文 参考訳(メタデータ) (2025-12-10T10:38:58Z) - CrystalFormer-RL: Reinforcement Fine-Tuning for Materials Design [2.290956583394892]
自己回帰変換器を用いた材料生成モデルCrystalFormerへの強化微細調整の適用について検討する。
報酬信号の最適化により、微調整は識別モデルからの知識を生成モデルに注入する。
生成したモデルであるCrystalFormer-RLは、生成した結晶の安定性を向上し、望ましいが矛盾する材料特性を持つ結晶の発見に成功した。
論文 参考訳(メタデータ) (2025-04-03T07:59:30Z) - Exploring Model Kinship for Merging Large Language Models [73.98345036483299]
我々は, モデル進化を反復的融合を通じて研究し, 生物進化の類似性について考察した。
モデル親和性はマージによって達成された性能改善と密接に関連していることを示す。
本稿では,新しいモデル統合戦略を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [8.785345412061792]
摂動に対する単一細胞転写応答をモデル化するための包括的枠組みを提案する。
私たちのアプローチには、モジュラーでユーザフレンドリなモデル開発と評価プラットフォームが含まれています。
モード崩壊など、広く使われているモデルの限界を強調します。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Scalable Diffusion for Materials Generation [99.71001883652211]
我々は任意の結晶構造(ユニマット)を表現できる統一された結晶表現を開発する。
UniMatはより大型で複雑な化学系から高忠実度結晶構造を生成することができる。
材料の生成モデルを評価するための追加指標を提案する。
論文 参考訳(メタデータ) (2023-10-18T15:49:39Z) - Evaluating the diversity and utility of materials proposed by generative
models [38.85523285991743]
本稿では, 逆設計プロセスの一部として, 物理誘導結晶生成モデルという, 最先端の生成モデルを用いる方法を示す。
本研究は, 逆設計を改善するために, 生成モデルをどのように改善するかを示唆する。
論文 参考訳(メタデータ) (2023-08-09T14:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。