論文の概要: Establishing Deep InfoMax as an effective self-supervised learning methodology in materials informatics
- arxiv url: http://arxiv.org/abs/2407.00671v1
- Date: Sun, 30 Jun 2024 11:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:07:11.763664
- Title: Establishing Deep InfoMax as an effective self-supervised learning methodology in materials informatics
- Title(参考訳): 材料情報学における効果的な自己教師型学習方法論としてのDeep InfoMaxの確立
- Authors: Michael Moran, Vladimir V. Gusev, Michael W. Gaultois, Dmytro Antypov, Matthew J. Rosseinsky,
- Abstract要約: Deep InfoMaxは、材料情報処理のための自己教師型機械学習フレームワークである。
Deep InfoMaxは、結晶の点集合(またはグラフ)表現と下流学習に適したベクトル表現との相互情報を最大化する。
本稿では,Site-Netアーキテクチャ上で実装されたDeep InfoMaxプリトレーニングの利点について検討し,下流特性予測モデルの性能向上を図る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of property labels remains a key challenge in materials informatics, whereas materials data without property labels are abundant in comparison. By pretraining supervised property prediction models on self-supervised tasks that depend only on the "intrinsic information" available in any Crystallographic Information File (CIF), there is potential to leverage the large amount of crystal data without property labels to improve property prediction results on small datasets. We apply Deep InfoMax as a self-supervised machine learning framework for materials informatics that explicitly maximises the mutual information between a point set (or graph) representation of a crystal and a vector representation suitable for downstream learning. This allows the pretraining of supervised models on large materials datasets without the need for property labels and without requiring the model to reconstruct the crystal from a representation vector. We investigate the benefits of Deep InfoMax pretraining implemented on the Site-Net architecture to improve the performance of downstream property prediction models with small amounts (<10^3) of data, a situation relevant to experimentally measured materials property databases. Using a property label masking methodology, where we perform self-supervised learning on larger supervised datasets and then train supervised models on a small subset of the labels, we isolate Deep InfoMax pretraining from the effects of distributional shift. We demonstrate performance improvements in the contexts of representation learning and transfer learning on the tasks of band gap and formation energy prediction. Having established the effectiveness of Deep InfoMax pretraining in a controlled environment, our findings provide a foundation for extending the approach to address practical challenges in materials informatics.
- Abstract(参考訳): 資産ラベルの不足は、材料情報学において重要な課題であり、一方、資産ラベルのない資料データは、比較に富んでいる。
結晶情報ファイル(CIF)で利用可能な「本質的な情報」にのみ依存する自己教師型タスクにおける教師付き特性予測モデルを事前学習することにより、プロパティラベルなしで大量の結晶データを活用することで、小さなデータセットのプロパティ予測結果を改善することができる。
本稿では,結晶の点集合(あるいはグラフ)表現と下流学習に適したベクトル表現との相互情報を明示的に最大化する材料情報処理のための,自己教師型機械学習フレームワークとしてDeep InfoMaxを適用した。
これにより、プロパティラベルを必要とせず、表現ベクトルから結晶を再構築する必要もない、大きな材料データセット上の教師付きモデルの事前トレーニングが可能になる。
本研究では,Site-Netアーキテクチャに実装したDeep InfoMaxプリトレーニングによるデータ量(10^3)の下流特性予測モデルの性能向上について検討する。
プロパティラベルマスキング手法を用いて、より大きな教師付きデータセットで自己教師付き学習を行い、ラベルの小さなサブセットで教師付きモデルを訓練し、分散シフトの影響からDeep InfoMaxを事前訓練する。
本稿では,バンドギャップと生成エネルギー予測のタスクにおける表現学習と伝達学習の文脈における性能改善を示す。
制御された環境下でのDeep InfoMax事前学習の有効性を確立することで,材料情報学における実践的課題に対処するためのアプローチを拡張するための基盤を提供する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - Is Self-Supervised Pretraining Good for Extrapolation in Molecular
Property Prediction? [16.211138511816642]
物質科学において、一般に外挿と呼ばれる未観測値の予測は、特性予測にとって重要である。
実験により,モデルが絶対的特性値の正確な外挿を行えなかったにもかかわらず,自己教師型事前学習により,観測されていない特性値の相対的傾向を学習できることを実証的に明らかにする。
論文 参考訳(メタデータ) (2023-08-16T03:38:43Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Crystal Twins: Self-supervised Learning for Crystalline Material
Property Prediction [8.048439531116367]
結晶性物質特性予測のためのSSL法であるCrystal Twins(CT)を紹介する。
我々は、拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用して、グラフニューラルネットワーク(GNN)を事前訓練する。
回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの課題のある材料特性予測ベンチマークの性能を著しく改善する。
論文 参考訳(メタデータ) (2022-05-04T05:08:46Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文 参考訳(メタデータ) (2020-08-26T14:16:01Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。