論文の概要: ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation Models
- arxiv url: http://arxiv.org/abs/2505.12534v1
- Date: Sun, 18 May 2025 20:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.292933
- Title: ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation Models
- Title(参考訳): ChemPile:250GBのディバースとキュレートされたデータセット
- Authors: Adrian Mirza, Nawaf Alampara, Martiño Ríos-García, Mohamed Abdelalim, Jack Butler, Bethany Connolly, Tunca Dogan, Marianna Nezhurina, Bünyamin Şen, Santosh Tirunagari, Mark Worrall, Adamo Young, Philippe Schwaller, Michael Pieler, Kevin Maik Jablonka,
- Abstract要約: 我々は75億以上のキュレートされた化学データのトークンを含むオープンデータセットであるChemPileを提示する。
データセットは、化学による人間の学習の旅を反映している。
ChemPileは基本的な概念とドメイン固有の複雑さの両方をキャプチャする。
- 参考スコア(独自算出の注目度): 2.0815739337757555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have shown remarkable success across scientific domains, yet their impact in chemistry remains limited due to the absence of diverse, large-scale, high-quality datasets that reflect the field's multifaceted nature. We present the ChemPile, an open dataset containing over 75 billion tokens of curated chemical data, specifically built for training and evaluating general-purpose models in the chemical sciences. The dataset mirrors the human learning journey through chemistry -- from educational foundations to specialized expertise -- spanning multiple modalities and content types including structured data in diverse chemical representations (SMILES, SELFIES, IUPAC names, InChI, molecular renderings), scientific and educational text, executable code, and chemical images. ChemPile integrates foundational knowledge (textbooks, lecture notes), specialized expertise (scientific articles and language-interfaced data), visual understanding (molecular structures, diagrams), and advanced reasoning (problem-solving traces and code) -- mirroring how human chemists develop expertise through diverse learning materials and experiences. Constructed through hundreds of hours of expert curation, the ChemPile captures both foundational concepts and domain-specific complexity. We provide standardized training, validation, and test splits, enabling robust benchmarking. ChemPile is openly released via HuggingFace with a consistent API, permissive license, and detailed documentation. We hope the ChemPile will serve as a catalyst for chemical AI, enabling the development of the next generation of chemical foundation models.
- Abstract(参考訳): 基礎モデルは、科学領域全体で顕著な成功を収めてきたが、その化学への影響は、多面体の性質を反映した多種多様な大規模で高品質なデータセットが存在しないために制限されている。
我々は、75億以上のキュレートされた化学データのトークンを含むオープンデータセットであるChemPileを紹介します。
このデータセットは、教育基盤から専門的な専門知識まで、化学の人間の学習過程を反映しており、様々な化学表現(SMILES、SELFIES、IUPAC名、InChI、分子レンダリング)、科学と教育のテキスト、実行可能なコード、化学画像など、複数のモダリティとコンテンツタイプにまたがっている。
ChemPileは基礎知識(教科書、講義ノート)、専門的専門知識(科学論文、言語インタフェースデータ)、視覚的理解(分子構造、図表)、先進的推論(プロブレム解決トレースとコード)を統合する。
何百時間もの専門的なキュレーションを通じて構築されたChemPileは、基本的な概念とドメイン固有の複雑さの両方をキャプチャする。
標準化されたトレーニング、検証、テストの分割を提供し、堅牢なベンチマークを可能にします。
ChemPileはHuggingFaceを通じて公開されており、一貫性のあるAPI、許容ライセンス、詳細なドキュメントがある。
ChemPileが化学AIの触媒として機能し、次世代の化学基礎モデルの開発を可能にすることを願っている。
関連論文リスト
- Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文 参考訳(メタデータ) (2025-06-13T00:45:41Z) - From Generalist to Specialist: A Survey of Large Language Models for Chemistry [14.317448405387195]
大言語モデル(LLM)は我々の日常生活を大きく変え、自然言語処理(NLP)の新しいパラダイムを確立した。
LLMの大規模なWebベースのテキストへの事前学習は、特に化学において先進的な科学的発見には不十分である。
化学におけるプレトレインド言語モデル(PLM)について、いくつかの研究がレビューされているが、化学指向のLSMに特に焦点を絞った系統的な調査は、顕著に行われていない。
論文 参考訳(メタデータ) (2024-12-28T03:40:25Z) - MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [23.558032054114577]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature [4.086092284014203]
本稿では,ケビの知識で既存の注釈付きテキストコーパスを増補し,化学物質とその科学テキストにおける役割を認識するための大規模モデル(LLM)を微調整する手法を提案する。
LLMのオントロジ的知識理解能力を組み合わせることで、科学文献における化学物質と役割の両方を識別する高精度なリコール率が得られる。
論文 参考訳(メタデータ) (2024-07-31T15:56:06Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。