論文の概要: The Open Catalyst 2020 (OC20) Dataset and Community Challenges
- arxiv url: http://arxiv.org/abs/2010.09990v5
- Date: Fri, 24 Sep 2021 14:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:49:22.665444
- Title: The Open Catalyst 2020 (OC20) Dataset and Community Challenges
- Title(参考訳): Open Catalyst 2020 (OC20)データセットとコミュニティチャレンジ
- Authors: Lowik Chanussot, Abhishek Das, Siddharth Goyal, Thibaut Lavril,
Muhammed Shuaibi, Morgane Riviere, Kevin Tran, Javier Heras-Domingo, Caleb
Ho, Weihua Hu, Aini Palizhati, Anuroop Sriram, Brandon Wood, Junwoong Yoon,
Devi Parikh, C. Lawrence Zitnick, Zachary Ulissi
- Abstract要約: 触媒の発見と最適化は多くの社会的およびエネルギー的課題を解決する鍵となる。
表面および吸着体の元素組成を一般化できるモデルを構築することは、依然としてオープンな課題である。
- 参考スコア(独自算出の注目度): 36.556154866045894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catalyst discovery and optimization is key to solving many societal and
energy challenges including solar fuels synthesis, long-term energy storage,
and renewable fertilizer production. Despite considerable effort by the
catalysis community to apply machine learning models to the computational
catalyst discovery process, it remains an open challenge to build models that
can generalize across both elemental compositions of surfaces and adsorbate
identity/configurations, perhaps because datasets have been smaller in
catalysis than related fields. To address this we developed the OC20 dataset,
consisting of 1,281,040 Density Functional Theory (DFT) relaxations
(~264,890,000 single point evaluations) across a wide swath of materials,
surfaces, and adsorbates (nitrogen, carbon, and oxygen chemistries). We
supplemented this dataset with randomly perturbed structures, short timescale
molecular dynamics, and electronic structure analyses. The dataset comprises
three central tasks indicative of day-to-day catalyst modeling and comes with
pre-defined train/validation/test splits to facilitate direct comparisons with
future model development efforts. We applied three state-of-the-art graph
neural network models (CGCNN, SchNet, Dimenet++) to each of these tasks as
baseline demonstrations for the community to build on. In almost every task, no
upper limit on model size was identified, suggesting that even larger models
are likely to improve on initial results. The dataset and baseline models are
both provided as open resources, as well as a public leader board to encourage
community contributions to solve these important tasks.
- Abstract(参考訳): 触媒の発見と最適化は、太陽燃料合成、長期エネルギー貯蔵、再生可能肥料生産など、多くの社会的およびエネルギー的課題を解決する鍵となる。
計算触媒発見プロセスに機械学習モデルを適用するための触媒コミュニティの努力にもかかわらず、おそらくデータセットが関連する分野よりも触媒の小さいため、表面の元素組成と吸着したアイデンティティ/構成の両方を一般化できるモデルを構築することは、依然としてオープンな課題である。
そこで我々は, 物質, 表面, 吸着剤 (窒素, 炭素, 酸素化学) の広範囲にわたる1,281,040 密度汎関数論 (DFT) 緩和 (~264,890,000点評価) からなる OC20 データセットを開発した。
我々はこのデータセットを、ランダムな摂動構造、短い時間スケール分子動力学、電子構造解析で補足した。
データセットは、日々の触媒モデリングを示す3つの中心的なタスクで構成されており、将来のモデル開発活動と直接比較するための事前定義されたトレイン/バリデーション/テストの分割が伴っている。
我々はこれらのタスクに3つの最先端グラフニューラルネットワークモデル(CGCNN, SchNet, Dimenet++)を適用した。
ほぼすべてのタスクにおいて、モデルサイズに対する上限は特定されず、さらに大きなモデルでも初期結果を改善する可能性が示唆された。
データセットとベースラインモデルはどちらもオープンリソースとして提供され、これらの重要なタスクを解決するためにコミュニティの貢献を促すパブリックリーダーボードとして提供されている。
関連論文リスト
- Self-Supervised Learning in Electron Microscopy: Towards a Foundation
Model for Advanced Image Analysis [0.0]
本稿では,自己教師付き事前学習が,下流タスクの高精度な微調整をいかに促進するかを示す。
我々は、電子顕微鏡の文脈において、下流の様々なタスクにまたがる自己教師型事前学習の汎用性を実証する。
論文 参考訳(メタデータ) (2024-02-28T12:25:01Z) - On the Role of Edge Dependency in Graph Generative Models [28.203109773986167]
本稿では,グラフ生成モデルのための新しい評価フレームワークを提案する。
我々は、精度とエッジの多様性の両方を保証するために、モデル生成グラフの重複の重要性に焦点をあてる。
我々の単純な解釈可能なモデルが、一般的な生成モデルと競合するベースラインを提供することを示す。
論文 参考訳(メタデータ) (2023-12-06T18:54:27Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated
Catalyst Design [102.9593507372373]
触媒材料は産業プロセスに関わる電気化学反応において重要な役割を担っている。
機械学習は、大量のデータから材料特性を効率的にモデル化する可能性を秘めている。
本稿では,ほとんどのアーキテクチャに適用可能なタスク固有のイノベーションを提案し,計算効率と精度の両立を図っている。
論文 参考訳(メタデータ) (2022-11-22T05:24:30Z) - Boosting Heterogeneous Catalyst Discovery by Structurally Constrained
Deep Learning Models [0.0]
グラフニューラルネットワーク(GNN)のようなディープラーニングアプローチは、新しい高性能触媒をモデル化するスコープを大幅に拡張する新たな機会を開く。
ここでは,Voronoiテッセルレーションにより改良したGNNの埋め込み改善について述べる。
データの適切な選択は、物理ベースで1原子あたり20 meV以上の値に誤差を減少させることができることを示す。
論文 参考訳(メタデータ) (2022-07-11T17:01:28Z) - The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide
Electrocatalysis [9.9765107020148]
酸化物の化学空間にまたがる一般的な機械学習のポテンシャルは、まだ手の届かないところにある。
Open Catalyst 2022(OC22)データセットは62,521 密度汎関数論 (DFT) によって構成される。
異なる材料や吸着剤を含む場合でも、データセットの組み合わせがより良い結果をもたらすかどうかを調査する。
論文 参考訳(メタデータ) (2022-06-17T17:54:10Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。