論文の概要: Contrastive Learning of English Language and Crystal Graphs for Multimodal Representation of Materials Knowledge
- arxiv url: http://arxiv.org/abs/2502.16451v1
- Date: Sun, 23 Feb 2025 05:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:29.918490
- Title: Contrastive Learning of English Language and Crystal Graphs for Multimodal Representation of Materials Knowledge
- Title(参考訳): 材料知識のマルチモーダル表現のための英語とクリスタルグラフの対比学習
- Authors: Yang Jeong Park, Mayank Kumaran, Chia-Wei Hsu, Elsa Olivetti, Ju Li,
- Abstract要約: 新たに合成した126kの結晶構造-テキストペアのデータセット上に事前学習したコントラスト言語-結晶モデル(CLaC)を導入する。
CLaCは結晶構造の理解において最先端のゼロショット一般化性能を達成する。
- 参考スコア(独自算出の注目度): 0.15978270011184253
- License:
- Abstract: Artificial intelligence (AI) is increasingly used for the inverse design of materials, such as crystals and molecules. Existing AI research on molecules has integrated chemical structures of molecules with textual knowledge to adapt to complex instructions. However, this approach has been unattainable for crystals due to data scarcity from the biased distribution of investigated crystals and the lack of semantic supervision in peer-reviewed literature. In this work, we introduce a contrastive language-crystals model (CLaC) pre-trained on a newly synthesized dataset of 126k crystal structure-text pairs. To demonstrate the advantage of using synthetic data to overcome data scarcity, we constructed a comparable dataset extracted from academic papers. We evaluate CLaC's generalization ability through various zero-shot cross-modal tasks and downstream applications. In experiments, CLaC achieves state-of-the-art zero-shot generalization performance in understanding crystal structures, surpassing latest large language models.
- Abstract(参考訳): 人工知能(AI)は、結晶や分子などの材料の逆設計にますます使われている。
既存のAIによる分子の研究は、複雑な命令に適応するためのテキスト知識を持つ分子の化学構造を統合している。
しかし、この手法は、調査された結晶の偏り分布からのデータ不足と、査読された文献における意味的監督の欠如により、結晶にとって不適当である。
本研究では,新たに合成した126kの結晶構造-テクスチャペアのデータセット上に事前学習したコントラッシブ言語-結晶モデル(CLaC)を導入する。
データの不足を克服するために合成データを利用することの利点を実証するため,学術論文から抽出した同等のデータセットを構築した。
各種ゼロショットクロスモーダルタスクと下流アプリケーションを用いてCLaCの一般化能力を評価する。
実験では、CLaCは最新の大規模言語モデルを超えながら、結晶構造の理解において最先端のゼロショット一般化性能を達成する。
関連論文リスト
- Contrastive Language-Structure Pre-training Driven by Materials Science Literature [10.170537065646323]
Contrastive Language-Structure Pre-Training (CLaSP) は結晶構造とテキスト間のクロスモーダルな埋め込み空間を構築するための学習パラダイムである。
CLaSPは、結晶構造間の特性や機能に関する類似性を捉えた材料埋め込みを実現することを目的としている。
テキストベース結晶構造スクリーニングと埋め込み空間可視化によるCLaSPの有効性を実証する。
論文 参考訳(メタデータ) (2025-01-22T14:47:59Z) - Generative Hierarchical Materials Search [91.93125016916463]
結晶構造の制御可能な生成のための生成階層材料探索(GenMS)を提案する。
GenMSは(1)高レベル自然言語を入力とし、結晶に関する中間テキスト情報を生成する言語モデルからなる。
GenMSはまた、生成された結晶構造から特性(たとえば生成エネルギー)を予測するためにグラフニューラルネットワークを使用する。
論文 参考訳(メタデータ) (2024-09-10T17:51:28Z) - Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers [1.2289361708127877]
有望な性質を持つ新しい無機材料は、科学的にも工業的にも重要な課題である。
有望な性質を持つ新しい無機材料の発見は、科学的にも工業的にも重要な課題である。
そこで本研究では,トランスフォーマーアーキテクチャに基づくバックボーンを用いた,結晶構造の生成的逆設計のための新しいタイプの拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-13T16:03:15Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Compositional Representation of Polymorphic Crystalline Materials [56.80318252233511]
PCRLは,構成の確率論的モデリングを用いて,利用可能な構造情報から多型を抽出する手法である。
16のデータセットに対する広範囲な評価は、構成表現の学習におけるPCRLの有効性を示す。
論文 参考訳(メタデータ) (2023-11-17T20:34:28Z) - Scalable Diffusion for Materials Generation [99.71001883652211]
我々は任意の結晶構造(ユニマット)を表現できる統一された結晶表現を開発する。
UniMatはより大型で複雑な化学系から高忠実度結晶構造を生成することができる。
材料の生成モデルを評価するための追加指標を提案する。
論文 参考訳(メタデータ) (2023-10-18T15:49:39Z) - CrysMMNet: Multimodal Representation for Crystal Property Prediction [22.576167897068956]
CrysMMNetは、構造的およびテキスト的表現を融合させ、結晶材料の共同マルチモーダル表現を生成する単純なマルチモーダルフレームワークである。
我々は、CrysMMNetが既存の最先端のベースラインメソッドよりも優れたマージンを持つことを示すために、10の異なるプロパティにわたる2つのベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-09T11:16:01Z) - A data-driven interpretation of the stability of molecular crystals [0.0]
分子構造ブロックから形成される結晶構造の安定性を予測することは、非自明な科学的問題である。
本稿では, 有機結晶の硬化したデータセットに対する結合エネルギーの予測に適した構造記述子を提案する。
次に、構造エネルギーのランドスケープの低次元表現を用いて、このライブラリを解釈する。
論文 参考訳(メタデータ) (2022-09-21T23:32:53Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。