論文の概要: Iterative Corpus Refinement for Materials Property Prediction Based on Scientific Texts
- arxiv url: http://arxiv.org/abs/2505.21646v2
- Date: Tue, 10 Jun 2025 12:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.085017
- Title: Iterative Corpus Refinement for Materials Property Prediction Based on Scientific Texts
- Title(参考訳): 科学資料に基づく材料特性予測のための反復コーパスリファインメント
- Authors: Lei Zhang, Markus Stricker,
- Abstract要約: 本稿では、最も多様な文書を戦略的に選択し、Word2Vecモデルを訓練し、組込み空間における合成-プロパティ相関の収束をモニタリングすることにより、与えられた科学的コーパスを洗練する反復的フレームワークを提案する。
提案手法は, 酸素還元反応 (ORR) , 水素進化反応 (HER) および酸素進化反応 (OER) に関する高効率材料を, 多くの候補成分に対して予測するために適用した。
- 参考スコア(独自算出の注目度): 5.592360872268223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discovery and optimization of materials for specific applications is hampered by the practically infinite number of possible elemental combinations and associated properties, also known as the `combinatorial explosion'. By nature of the problem, data are scarce and all possible data sources should be used. In addition to simulations and experimental results, the latent knowledge in scientific texts is not yet used to its full potential. We present an iterative framework that refines a given scientific corpus by strategic selection of the most diverse documents, training Word2Vec models, and monitoring the convergence of composition-property correlations in embedding space. Our approach is applied to predict high-performing materials for oxygen reduction (ORR), hydrogen evolution (HER), and oxygen evolution (OER) reactions for a large number of possible candidate compositions. Our method successfully predicts the highest performing compositions among a large pool of candidates, validated by experimental measurements of the electrocatalytic performance in the lab. This work demonstrates and validates the potential of iterative corpus refinement to accelerate materials discovery and optimization, offering a scalable and efficient tool for screening large compositional spaces where reliable data are scarce or non-existent.
- Abstract(参考訳): 特定の用途のための材料の発見と最適化は、事実上無限の要素の組み合わせと関連する性質によって妨げられる("combinatorial explosion"とも呼ばれる)。
問題の性質上、データは乏しく、可能なすべてのデータソースを使用する必要がある。
シミュレーションや実験結果に加えて、科学的テキストの潜在知識は、その潜在能力にはまだ使われていない。
本稿では、最も多様な文書を戦略的に選択し、Word2Vecモデルを訓練し、組込み空間における合成-プロパティ相関の収束をモニタリングすることにより、与えられた科学的コーパスを洗練する反復的フレームワークを提案する。
提案手法は, 酸素還元反応 (ORR) , 水素進化反応 (HER) および酸素進化反応 (OER) に関する高効率材料を, 多くの候補成分に対して予測するために適用した。
提案手法は, 実験室における電気触媒性能の実験的測定により評価され, 多数の候補のうち, 最高性能の組成を予測できた。
この研究は、材料発見と最適化を加速する反復コーパス改良の可能性を実証し、検証し、信頼性の低い、あるいは存在しない大規模な合成空間をスクリーニングするためのスケーラブルで効率的なツールを提供する。
関連論文リスト
- Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。
本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。
SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:14:49Z) - Inverse Materials Design by Large Language Model-Assisted Generative Framework [35.04390544440238]
AlloyGANは、Large Language Model (LLM) を利用したテキストマイニングと条件付き生成支援ネットワーク (CGAN) を統合したフレームワークである。
金属ガラスの場合、このフレームワークは実験から8%未満の差で熱力学特性を予測する。
生成AIをドメイン知識でブリッジすることで、A AlloyGANは、カスタマイズされた特性を持つ物質の発見を加速するスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-02-25T11:52:59Z) - Equation discovery framework EPDE: Towards a better equation discovery [50.79602839359522]
進化的最適化に基づく発見フレームワークであるEPDEアルゴリズムを強化する。
提案手法は基本関数や個人差分といった基本構造ブロックを用いて用語を生成する。
我々は,提案アルゴリズムの耐雑音性および全体的な性能を,最先端の方程式探索フレームワークであるSINDyの結果と比較することによって検証する。
論文 参考訳(メタデータ) (2024-12-28T15:58:44Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Proposing Novel Extrapolative Compounds by Nested Variational
Autoencoders [0.685316573653194]
著者らは2つの変分オートエンコーダ(VAE)をネストした深部生成モデルを提案した。
外部VAEは大規模公開データを用いて化合物の構造的特徴を学習し,内部VAEは小規模実験データから外部VAEの潜伏変数と特性との関係を学習する。
その結果, この損失関数は, 高性能な候補を生成する確率の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-02-06T04:12:12Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z) - Unsupervised physics-informed disentanglement of multimodal data for
high-throughput scientific discovery [4.923937591056569]
物理インフォームドマルチモーダルオートエンコーダ(PIMA)を紹介する。
PIMAはマルチモーダルな科学データセットで共有情報を発見するための変分推論フレームワークである。
金属添加物製造からの格子状メタマテリアルのデータセットは正確なクロスモーダル推論を示す。
論文 参考訳(メタデータ) (2022-02-07T14:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。