論文の概要: CheMixHub: Datasets and Benchmarks for Chemical Mixture Property Prediction
- arxiv url: http://arxiv.org/abs/2506.12231v1
- Date: Fri, 13 Jun 2025 21:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.58262
- Title: CheMixHub: Datasets and Benchmarks for Chemical Mixture Property Prediction
- Title(参考訳): CheMixHub: 化学物質の混合特性予測のためのデータセットとベンチマーク
- Authors: Ella Miray Rajaonson, Mahyar Rajabi Kochi, Luis Martin Mejia Mendoza, Seyed Mohamad Moosavi, Benjamin Sanchez-Lengeling,
- Abstract要約: CheMixHubは分子混合物の総合的なベンチマークである。
11種類の化学物質の混合特性予測タスクのコーパスをカバーしており、ドラッグデリバリーの定式化から電池の電解質まで。
CheMixHubは、コンテキスト固有の一般化とモデルロバスト性を評価するために、さまざまなデータ分割技術を導入している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing improved predictive models for multi-molecular systems is crucial, as nearly every chemical product used results from a mixture of chemicals. While being a vital part of the industry pipeline, the chemical mixture space remains relatively unexplored by the Machine Learning community. In this paper, we introduce CheMixHub, a holistic benchmark for molecular mixtures, covering a corpus of 11 chemical mixtures property prediction tasks, from drug delivery formulations to battery electrolytes, totalling approximately 500k data points gathered and curated from 7 publicly available datasets. CheMixHub introduces various data splitting techniques to assess context-specific generalization and model robustness, providing a foundation for the development of predictive models for chemical mixture properties. Furthermore, we map out the modelling space of deep learning models for chemical mixtures, establishing initial benchmarks for the community. This dataset has the potential to accelerate chemical mixture development, encompassing reformulation, optimization, and discovery. The dataset and code for the benchmarks can be found at: https://github.com/chemcognition-lab/chemixhub
- Abstract(参考訳): 多分子系の予測モデルの改善は、ほとんどすべての化学物質が化学物質の混合物から得られるので、非常に重要である。
業界パイプラインの重要な部分ではあるが、化学混合物の空間は機械学習コミュニティによって比較的探索されていない。
本稿では,分子混合物の総合的なベンチマークであるCheMixHubを紹介し,11種類の化学物質混合特性予測タスクのコーパスについて紹介する。
CheMixHubは、コンテキスト固有の一般化とモデルロバスト性を評価するための様々なデータ分割技術を導入し、化学混合特性の予測モデルの開発の基礎を提供する。
さらに、化学混合物の深層学習モデルのモデル化空間を図示し、コミュニティのための初期ベンチマークを確立する。
このデータセットは、化学混合物の開発を加速し、改質、最適化、発見を包含する可能性がある。
ベンチマークのデータセットとコードについては、https://github.com/chemcognition-lab/chemixhubを参照してください。
関連論文リスト
- Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [72.39098405805318]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。
このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。
本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:13:24Z) - Predicting the Temperature-Dependent CMC of Surfactant Mixtures with Graph Neural Networks [36.814181034608666]
界面活性剤は、様々な産業で発泡および浄化の鍵となる材料である。
実際には、界面活性剤の混合物は通常、性能、環境、コストの理由から使用される。
本研究では,CMCの温度依存性を予測するため,界面活性剤混合物のグラフニューラルネットワークフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-04T16:17:57Z) - Hierarchical Matrix Completion for the Prediction of Properties of Binary Mixtures [3.0478550046333965]
データ駆動モデルを改善するための新しいジェネリックアプローチを導入する。
化学のクラスに同じように振る舞うコンポーネントを持ち込み、それらを共同でモデル化します。
クラスタリングを使用すると、クラスタリングなしのCMに比べて予測が大幅に改善される。
論文 参考訳(メタデータ) (2024-10-08T14:04:30Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - A Gaussian Process Model for Ordinal Data with Applications to Chemoinformatics [0.0]
化学実験の結果を予測するための条件付きガウス過程モデルを提案する。
我々のモデルの新しい側面は、核がスケーリングパラメータを含み、化学空間の要素間の相関の強さを制御することである。
本稿では,化学発見の容易化と化合物の有効性に対する重要な特徴の同定のための遺伝的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-16T11:18:32Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Unsupervised Learning of Molecular Embeddings for Enhanced Clustering
and Emergent Properties for Chemical Compounds [2.6803933204362336]
SMILESデータに基づく化合物の検出とクラスタリングのための様々な手法を提案する。
埋め込みデータを用いて化合物のグラフィカルな構造を解析し, しきい値を満たすためにベクトル探索を用いる。
また、GPT3.5を用いたベクトルデータベースに格納された自然言語記述埋め込みを用い、ベースモデルより優れていた。
論文 参考訳(メタデータ) (2023-10-25T18:00:24Z) - Differentiable Modeling and Optimization of Battery Electrolyte Mixtures
Using Geometric Deep Learning [0.3141085922386211]
本研究では, 化学混合物の幾何学的深層学習モデルDiffMixを開発し, ロボット実験の指導に応用する。
DiffMixの予測精度とモデルロバスト性は、純粋にデータ駆動型よりも向上した。
ロボット実験装置であるClioでは,10段階以内の電解質のイオン伝導率を18.8%以上向上させる。
論文 参考訳(メタデータ) (2023-10-03T22:26:38Z) - Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties [0.0]
化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。