論文の概要: Accelerating Materials Discovery: Learning a Universal Representation of Chemical Processes for Cross-Domain Property Prediction
- arxiv url: http://arxiv.org/abs/2512.05979v1
- Date: Wed, 26 Nov 2025 12:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.489298
- Title: Accelerating Materials Discovery: Learning a Universal Representation of Chemical Processes for Cross-Domain Property Prediction
- Title(参考訳): 材料発見の加速:クロスドメイン特性予測のための化学プロセスの普遍的表現の学習
- Authors: Mikhail Tsitsvero, Atsuyuki Nakao, Hisaki Ikebata,
- Abstract要約: 本稿では,非構造化テキスト,分子構造,数値計測を単一の機械可読形式に統一する汎用指向木プロセスグラフ表現を提案する。
9000近い多様なドキュメントから約70万のプロセスグラフをトレーニングし、ドメインをまたいだセマンティックにリッチな埋め込みを学びます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experimental validation of chemical processes is slow and costly, limiting exploration in materials discovery. Machine learning can prioritize promising candidates, but existing data in patents and literature is heterogeneous and difficult to use. We introduce a universal directed-tree process-graph representation that unifies unstructured text, molecular structures, and numeric measurements into a single machine-readable format. To learn from this structured data, we developed a multi-modal graph neural network with a property-conditioned attention mechanism. Trained on approximately 700,000 process graphs from nearly 9,000 diverse documents, our model learns semantically rich embeddings that generalize across domains. When fine-tuned on compact, domain-specific datasets, the pretrained model achieves strong performance, demonstrating that universal process representations learned at scale transfer effectively to specialized prediction tasks with minimal additional data.
- Abstract(参考訳): 化学プロセスの実験的検証は遅くてコストがかかり、材料発見の探索が制限される。
機械学習は有望な候補を優先することができるが、特許や文学における既存のデータは異質であり、使用が困難である。
本稿では,非構造化テキスト,分子構造,数値計測を単一の機械可読形式に統一する汎用指向木プロセスグラフ表現を提案する。
この構造化データから学習するために,特性条件付アテンション機構を備えたマルチモーダルグラフニューラルネットワークを開発した。
9000近い多様なドキュメントから約70万のプロセスグラフをトレーニングし、ドメインをまたいだセマンティックにリッチな埋め込みを学びます。
コンパクトでドメイン固有のデータセットを微調整すると、事前訓練されたモデルは強い性能を達成し、スケール転送で学習された普遍的なプロセス表現が、最小限の追加データで特定の予測タスクに効果的に学習できることを実証する。
関連論文リスト
- Molecular Machine Learning Using Euler Characteristic Transforms [12.108680020079925]
分子の形状は、その物理化学的および生物学的性質を決定する。
幾何学的トポロジカル記述子としてEuler Characteristics Transform (ECT)を提案する。
ECTは、マルチスケールの構造的特徴の抽出を可能にし、特徴空間における分子形状を表現およびエンコードする新しい方法を提供する。
論文 参考訳(メタデータ) (2025-07-04T10:57:40Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties [0.0]
化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Digital Fingerprinting of Microstructures [44.139970905896504]
微細な情報をフィンガープリントする効率的な方法を見つけることは、データ中心の機械学習アプローチを活用するための重要なステップである。
本稿では,マイクロ構造を分類し,その特徴を機械学習タスクに応用する。
特に、ImageNetデータセットで事前訓練された畳み込みニューラルネットワーク(CNN)によるトランスファーラーニングを利用するメソッドは、他の方法よりも優れていることが一般的に示されている。
論文 参考訳(メタデータ) (2022-03-25T15:40:44Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Machine learning with persistent homology and chemical word embeddings
improves prediction accuracy and interpretability in metal-organic frameworks [0.07874708385247352]
材料の構造と化学の複雑な表現をキャプチャする記述子を自動的に生成するエンド・ツー・エンドの機械学習モデルを提案する。
物質系から直接、幾何学的および化学的情報をカプセル化する。
提案手法は, 対象物間での精度, 転送可能性の両面において, 一般的に用いられている手作業による特徴量から構築したモデルに比べ, かなり改善されている。
論文 参考訳(メタデータ) (2020-10-01T16:31:46Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。