論文の概要: AI-Driven Expansion and Application of the Alexandria Database
- arxiv url: http://arxiv.org/abs/2512.09169v1
- Date: Tue, 09 Dec 2025 22:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.337898
- Title: AI-Driven Expansion and Application of the Alexandria Database
- Title(参考訳): AIによるアレクサンドリアデータベースの拡張と応用
- Authors: Théo Cavignac, Jonathan Schmidt, Pierre-Paul De Breuck, Antoine Loew, Tiago F. T. Cerqueira, Hai-Chen Wang, Anton Bochkarev, Yury Lysogorskiy, Aldo H. Romero, Ralf Drautz, Silvana Botti, Miguel A. L. Marques,
- Abstract要約: このワークフローは、熱力学的安定性の100MeV/原子内での化合物の同定において、99%の成功率を達成する。
Matra-Genoa生成モデル、Orb-v2ユニバーサル機械学習原子間ポテンシャル、エネルギー予測のためのALIGNNグラフニューラルネットワークを組み合わせることで、1億1900万の候補構造を生成する。
普遍力場を訓練するための力と応力を含む1400万の非平衡構造を持つsAlex25を含む完全なデータセットをリリースする。
- 参考スコア(独自算出の注目度): 1.6362410233645974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel multi-stage workflow for computational materials discovery that achieves a 99% success rate in identifying compounds within 100 meV/atom of thermodynamic stability, with a threefold improvement over previous approaches. By combining the Matra-Genoa generative model, Orb-v2 universal machine learning interatomic potential, and ALIGNN graph neural network for energy prediction, we generated 119 million candidate structures and added 1.3 million DFT-validated compounds to the ALEXANDRIA database, including 74 thousand new stable materials. The expanded ALEXANDRIA database now contains 5.8 million structures with 175 thousand compounds on the convex hull. Predicted structural disorder rates (37-43%) match experimental databases, unlike other recent AI-generated datasets. Analysis reveals fundamental patterns in space group distributions, coordination environments, and phase stability networks, including sub-linear scaling of convex hull connectivity. We release the complete dataset, including sAlex25 with 14 million out-of-equilibrium structures containing forces and stresses for training universal force fields. We demonstrate that fine-tuning a GRACE model on this data improves benchmark accuracy. All data, models, and workflows are freely available under Creative Commons licenses.
- Abstract(参考訳): 熱力学的安定性100 meV/atom以内の化合物の同定において99%の成功率を達成する計算材料発見のための新しい多段階ワークフローを提案する。
エネルギー予測のためのMatra-Genoa生成モデル、Orb-v2ユニバーサル機械学習原子間ポテンシャル、ALIGNNグラフニューラルネットワークを組み合わせることで、1億1900万の候補構造を生成し、7万の新しい安定物質を含む13万のDFT価化合物をALEXANDRIAデータベースに追加した。
拡張されたALEXANDRIAデータベースには580万の構造物と175万の化合物が含まれている。
予測構造障害率(37-43%)は、他のAI生成データセットとは異なり、実験的なデータベースと一致している。
解析は、凸船体接続のサブ線形スケーリングを含む、空間群分布、調整環境、位相安定性ネットワークの基本的なパターンを明らかにする。
普遍力場を訓練するための力と応力を含む1400万の非平衡構造を持つsAlex25を含む完全なデータセットをリリースする。
このデータに基づいてGRACEモデルを微調整することで、ベンチマークの精度が向上することを示す。
すべてのデータ、モデル、ワークフローは、Creative Commonsライセンスの下で自由に利用できる。
関連論文リスト
- Pearl: A Foundation Model for Placing Every Atom in the Right Location [52.35027831422145]
タンパク質-リガンド共フォールディングの基礎モデルであるPearlを紹介した。
パールはタンパク質-リガンド結合における新しい最先端性能を確立している。
Pearlは、パブリックなRuns N' PosesとPoseBustersベンチマークでAlphaFold 3や他のオープンソースベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:36:51Z) - Automated Multi-label Classification of Eleven Retinal Diseases: A Benchmark of Modern Architectures and a Meta-Ensemble on a Large Synthetic Dataset [1.996975578218265]
我々は、11の網膜疾患を分類するエンドツーエンドのディープラーニングパイプラインを開発した。
合成データのみに訓練されたモデルは,複数の病態を正確に分類し,実際の臨床画像に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-08-21T22:09:53Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models [3.865029260331255]
本稿では,Open Materials 2024 (OMat24) の大規模オープンデータセットのMeta FAIRリリースについて述べる。
OMat24は、構造的および構成的多様性に焦点を当てた1億1000万以上の密度汎関数理論(DFT)計算を含んでいる。
私たちのEquiformerV2モデルは、Matbench Discoveryのリーダーボード上で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-16T17:48:34Z) - Structural Constraint Integration in Generative Model for Discovery of Quantum Material Candidates [27.416978540039878]
遺伝子モデル(SCIGEN)における構造制約の統合について紹介する。
プロトタイプの制約としてアルキメデス格子を用いて800万の化合物を生成し, 10%以上の安定性が維持されている。
量子材料の性質は幾何学的パターンと密接に関連しているため、SCIGENは量子材料候補を生成するための一般的な枠組みを提供することを示す。
論文 参考訳(メタデータ) (2024-07-05T14:42:54Z) - Structure-based Drug Design with Equivariant Diffusion Models [40.73626627266543]
本稿では,タンパク質ポケットに新しい条件を付加したSE(3)-同変拡散モデルDiffSBDDを提案する。
我々のサイリコ実験では、DiffSBDDが地上の真実データの統計を効果的に捉えていることが示されています。
これらの結果は、拡散モデルが従来の方法よりも正確に構造データの複雑な分布を表すという仮定を支持する。
論文 参考訳(メタデータ) (2022-10-24T15:51:21Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。