論文の概要: Generating QM1B with PySCF$_{\text{IPU}}$
- arxiv url: http://arxiv.org/abs/2311.01135v1
- Date: Thu, 2 Nov 2023 10:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:02:28.595598
- Title: Generating QM1B with PySCF$_{\text{IPU}}$
- Title(参考訳): PySCF$_{\text{IPU}}$でQM1Bを生成する
- Authors: Alexander Mathiasen, Hatem Helal, Kerstin Klaser, Paul Balanca, Josef
Dean, Carlo Luschi, Dominique Beaini, Andrew Fitzgibbon, Dominic Masters
- Abstract要約: 本稿では,インテリジェンス処理ユニット(IPU)を用いたデータジェネレータPySCF$_textIPU$を紹介する。
これにより、9-11重原子を含む10億のトレーニング例でデータセットのQM1Bを作成することができます。
QM1Bのいくつかの制限を強調し、DFTオプションの低解像度を強調します。
- 参考スコア(独自算出の注目度): 40.29005019051567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The emergence of foundation models in Computer Vision and Natural Language
Processing have resulted in immense progress on downstream tasks. This progress
was enabled by datasets with billions of training examples. Similar benefits
are yet to be unlocked for quantum chemistry, where the potential of deep
learning is constrained by comparatively small datasets with 100k to 20M
training examples. These datasets are limited in size because the labels are
computed using the accurate (but computationally demanding) predictions of
Density Functional Theory (DFT). Notably, prior DFT datasets were created using
CPU supercomputers without leveraging hardware acceleration. In this paper, we
take a first step towards utilising hardware accelerators by introducing the
data generator PySCF$_{\text{IPU}}$ using Intelligence Processing Units (IPUs).
This allowed us to create the dataset QM1B with one billion training examples
containing 9-11 heavy atoms. We demonstrate that a simple baseline neural
network (SchNet 9M) improves its performance by simply increasing the amount of
training data without additional inductive biases. To encourage future
researchers to use QM1B responsibly, we highlight several limitations of QM1B
and emphasise the low-resolution of our DFT options, which also serves as
motivation for even larger, more accurate datasets. Code and dataset are
available on Github: http://github.com/graphcore-research/pyscf-ipu
- Abstract(参考訳): コンピュータビジョンと自然言語処理における基礎モデルの出現は、下流タスクの大幅な進歩をもたらした。
この進歩は、数十億のトレーニング例を持つデータセットによって実現された。
量子化学では、ディープラーニングの可能性は、1万から2000万のトレーニング例を持つ比較的小さなデータセットによって制限されている。
これらのデータセットは、密度汎関数理論(DFT)の正確な(しかし計算に要求される)予測を用いてラベルが計算されるため、サイズが制限される。
特に、以前のDFTデータセットはハードウェアアクセラレーションを使わずにCPUスーパーコンピュータを使用して作成された。
本稿では,インテリジェンス処理ユニット(IPU)を用いたデータジェネレータPySCF$_{\text{IPU}}$を導入することにより,ハードウェアアクセラレータの活用に向けた第一歩を踏み出す。
これにより、9-11重原子を含む10億のトレーニング例でデータセットのQM1Bを作成することができます。
簡単なベースラインニューラルネットワーク(SchNet 9M)は、インダクティブバイアスを伴わずにトレーニングデータの量を増やすことで、その性能を向上させることを実証する。
将来の研究者がQM1Bの責任を負うようにするために、QM1Bのいくつかの制限を強調し、DFTオプションの低解像度を強調します。
コードとデータセットはgithubで入手できる。 http://github.com/graphcore-research/pyscf-ipu
関連論文リスト
- SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Neural Architecture Search via Two Constant Shared Weights Initialisations [0.0]
本研究では,NAS-Bench-101,NAS-Bench-201,NAS-Bench-NLPベンチマークデータセット間で,列車セットの精度と高い相関性を示すゼロコスト指標を提案する。
提案手法は既存のNASアルゴリズムに簡単に組み込むことができ,1つのネットワークを評価するのに1秒程度の時間を要する。
論文 参考訳(メタデータ) (2023-02-09T02:25:38Z) - Scalable training of graph convolutional neural networks for fast and
accurate predictions of HOMO-LUMO gap in molecules [1.8947048356389908]
この研究は、数百万の分子の物質特性を予測するために、HPCシステム上でGCNNモデルを構築することに焦点を当てている。
PyTorchで分散データ並列性を活用するために,大規模GCNNトレーニング用の社内ライブラリであるHydraGNNを使用しています。
我々は2つのオープンソースの大規模グラフデータセットの並列トレーニングを行い、HOMO-LUMOギャップとして知られる重要な量子特性のためのGCNN予測器を構築する。
論文 参考訳(メタデータ) (2022-07-22T20:54:22Z) - NeuralNEB -- Neural Networks can find Reaction Paths Fast [7.7365628406567675]
密度汎関数理論 (DFT) のような量子力学的手法は、反応系の運動学を研究するための効率的な探索アルゴリズムと共に大きな成功を収めている。
機械学習(ML)モデルは、小さな分子DFT計算の優れたエミュレータであることが判明し、そのようなタスクでDFTを置き換える可能性がある。
本稿では、Transition1xデータセットから約10万の初等反応に基づいて、アート同変グラフニューラルネットワーク(GNN)に基づくモデルの状態を訓練する。
論文 参考訳(メタデータ) (2022-07-20T15:29:45Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。