論文の概要: The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide
Electrocatalysis
- arxiv url: http://arxiv.org/abs/2206.08917v1
- Date: Fri, 17 Jun 2022 17:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 15:44:22.425649
- Title: The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide
Electrocatalysis
- Title(参考訳): オープン触媒2022(OC22)データセットと酸化物電解への挑戦
- Authors: Richard Tran, Janice Lan, Muhammed Shuaibi, Siddharth Goyal, Brandon
M. Wood, Abhishek Das, Javier Heras-Domingo, Adeesh Kolluru, Ammar Rizvi,
Nima Shoghi, Anuroop Sriram, Zachary Ulissi, C. Lawrence Zitnick
- Abstract要約: 酸化物の化学空間にまたがる一般的な機械学習のポテンシャルは、まだ手の届かないところにある。
Open Catalyst 2022(OC22)データセットは62,521 密度汎関数論 (DFT) によって構成される。
異なる材料や吸着剤を含む場合でも、データセットの組み合わせがより良い結果をもたらすかどうかを調査する。
- 参考スコア(独自算出の注目度): 9.9765107020148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational catalysis and machine learning communities have made
considerable progress in developing machine learning models for catalyst
discovery and design. Yet, a general machine learning potential that spans the
chemical space of catalysis is still out of reach. A significant hurdle is
obtaining access to training data across a wide range of materials. One
important class of materials where data is lacking are oxides, which inhibits
models from studying the Oxygen Evolution Reaction and oxide electrocatalysis
more generally. To address this we developed the Open Catalyst 2022(OC22)
dataset, consisting of 62,521 Density Functional Theory (DFT) relaxations
(~9,884,504 single point calculations) across a range of oxide materials,
coverages, and adsorbates (*H, *O, *N, *C, *OOH, *OH, *OH2, *O2, *CO). We
define generalized tasks to predict the total system energy that are applicable
across catalysis, develop baseline performance of several graph neural networks
(SchNet, DimeNet++, ForceNet, SpinConv, PaiNN, GemNet-dT, GemNet-OC), and
provide pre-defined dataset splits to establish clear benchmarks for future
efforts. For all tasks, we study whether combining datasets leads to better
results, even if they contain different materials or adsorbates. Specifically,
we jointly train models on Open Catalyst 2020 (OC20) Dataset and OC22, or
fine-tune pretrained OC20 models on OC22. In the most general task, GemNet-OC
sees a ~32% improvement in energy predictions through fine-tuning and a ~9%
improvement in force predictions via joint training. Surprisingly, joint
training on both the OC20 and much smaller OC22 datasets also improves total
energy predictions on OC20 by ~19%. The dataset and baseline models are open
sourced, and a public leaderboard will follow to encourage continued community
developments on the total energy tasks and data.
- Abstract(参考訳): 計算触媒と機械学習のコミュニティは、触媒発見と設計のための機械学習モデルの開発に大きく進歩している。
しかし、触媒の化学空間にまたがる一般的な機械学習の可能性はまだ手に負えない。
重要なハードルは、幅広い材料にわたるトレーニングデータへのアクセスを得ることである。
データが欠落している重要な素材の1つは酸化物であり、これはより一般的に酸素進化反応や酸化物電気触媒のモデル研究を妨げる。
そこで我々は,62,521 密度汎関数論 (DFT) の緩和 (~9,884,504 個点計算) と吸着剤 (*H, *O, *N, *C, *OOH, *OH, *OH2, *O2, *CO) からなる Open Catalyst 2022(OC22) データセットを開発した。
触媒作用に適用可能な総システムエネルギーを予測するための汎用タスクを定義し、いくつかのグラフニューラルネットワーク(SchNet, DimeNet++, ForceNet, SpinConv, PaiNN, GemNet-dT, GemNet-OC)のベースライン性能を開発し、将来の取り組みのための明確なベンチマークを確立するために予め定義されたデータセット分割を提供する。
すべてのタスクにおいて、データセットの組み合わせがより良い結果をもたらすかどうかを、異なる材料や吸着物を含む場合でも調査する。
具体的には、Open Catalyst 2020 (OC20) Dataset と OC22 のモデルを共同でトレーニングし、OC22 の OC20 モデルを微調整した。
最も一般的なタスクとして、gemnet-ocでは、微調整によるエネルギー予測が約32%改善され、共同トレーニングによる力予測が約9%向上している。
驚いたことに、OC20とより小さなOC22データセットの合同トレーニングもOC20の総エネルギー予測を約19%改善している。
データセットとベースラインモデルはオープンソース化され、全体エネルギータスクとデータに関するコミュニティの継続的な発展を促進するために、公開のリーダーボードが続く。
関連論文リスト
- Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models [3.865029260331255]
本稿では,Open Materials 2024 (OMat24) の大規模オープンデータセットのMeta FAIRリリースについて述べる。
OMat24は、構造的および構成的多様性に焦点を当てた1億1000万以上の密度汎関数理論(DFT)計算を含んでいる。
私たちのEquiformerV2モデルは、Matbench Discoveryのリーダーボード上で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-16T17:48:34Z) - Dumpling GNN: Hybrid GNN Enables Better ADC Payload Activity Prediction Based on Chemical Structure [53.76752789814785]
DumplingGNNは、化学構造に基づいてADCペイロードのアクティビティを予測するために特別に設計された、ハイブリッドなグラフニューラルネットワークアーキテクチャである。
DNAトポイソメラーゼIインヒビターに着目した包括的ADCペイロードデータセットで評価を行った。
特別なADCペイロードデータセットに対して、例外的な精度(91.48%)、感度95.08%)、特異性(97.54%)を示す。
論文 参考訳(メタデータ) (2024-09-23T17:11:04Z) - On the importance of catalyst-adsorbate 3D interactions for relaxed
energy predictions [98.70797778496366]
吸着剤の相対的な位置を無視しながら,OC20データセットの緩和エネルギーを予測できるかどうかを検討する。
結合サイト情報の削除は,期待通りに精度を低下させるが,修正モデルは極めて良好なMAEで緩和エネルギーを予測することができる。
論文 参考訳(メタデータ) (2023-10-10T14:57:04Z) - Activity Cliff Prediction: Dataset and Benchmark [20.41770222873952]
本稿ではまず,AC予測のための大規模データセットACNetを紹介する。
ACNetは400K以上のMMP(Matched Molecular Pairs)を190のターゲットに対してキュレートする。
本稿では、深いニューラルネットワークで符号化された分子表現の予測性能を交流予測のためにベンチマークするためのベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-15T09:19:07Z) - PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated
Catalyst Design [102.9593507372373]
触媒材料は産業プロセスに関わる電気化学反応において重要な役割を担っている。
機械学習は、大量のデータから材料特性を効率的にモデル化する可能性を秘めている。
本稿では,ほとんどのアーキテクチャに適用可能なタスク固有のイノベーションを提案し,計算効率と精度の両立を図っている。
論文 参考訳(メタデータ) (2022-11-22T05:24:30Z) - How Do Graph Networks Generalize to Large and Diverse Molecular Systems? [10.690849483282564]
多くのデータセットが不足している複雑さの4つの側面を特定します。
本稿では,従来のOC20の最先端性能を16%向上させるGemNet-OCモデルを提案する。
我々の発見は、グラフニューラルネットワークがデータセットのサイズと多様性から同じように独立して機能するという共通の信念に挑戦する。
論文 参考訳(メタデータ) (2022-04-06T12:52:34Z) - An Empirical Study of Graphormer on Large-Scale Molecular Modeling
Datasets [87.00711479972503]
グラフマー-V2」は、バニラモデルよりも大規模な分子モデルデータセットにおいてより良い結果が得られる可能性がある。
グローバルな受信フィールドとアダプティブアグリゲーション戦略により、Graphormerは従来のメッセージパッシングベースのGNNよりも強力である。
論文 参考訳(メタデータ) (2022-02-28T16:32:42Z) - Accelerating COVID-19 research with graph mining and transformer-based
learning [2.493740042317776]
新型コロナウイルス研究のための汎用仮説自動生成システムAGATHA-CとAGATHA-GPを紹介します。
どちらのシステムも、高速な計算時間でドメイン(一部のドメインでは0.97%のROC AUC)間で高品質の予測を実現します。
これらのシステムは、新型コロナウイルスとオキシトシンホルモンの関係など、現在進行中の研究成果を発見できることを示す。
論文 参考訳(メタデータ) (2021-02-10T15:11:36Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - The Open Catalyst 2020 (OC20) Dataset and Community Challenges [36.556154866045894]
触媒の発見と最適化は多くの社会的およびエネルギー的課題を解決する鍵となる。
表面および吸着体の元素組成を一般化できるモデルを構築することは、依然としてオープンな課題である。
論文 参考訳(メタデータ) (2020-10-20T03:29:18Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。