論文の概要: ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation Models
- arxiv url: http://arxiv.org/abs/2505.12534v1
- Date: Sun, 18 May 2025 20:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.292933
- Title: ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation Models
- Title(参考訳): ChemPile:250GBのディバースとキュレートされたデータセット
- Authors: Adrian Mirza, Nawaf Alampara, Martiño Ríos-García, Mohamed Abdelalim, Jack Butler, Bethany Connolly, Tunca Dogan, Marianna Nezhurina, Bünyamin Şen, Santosh Tirunagari, Mark Worrall, Adamo Young, Philippe Schwaller, Michael Pieler, Kevin Maik Jablonka,
- Abstract要約: 我々は75億以上のキュレートされた化学データのトークンを含むオープンデータセットであるChemPileを提示する。
データセットは、化学による人間の学習の旅を反映している。
ChemPileは基本的な概念とドメイン固有の複雑さの両方をキャプチャする。
- 参考スコア(独自算出の注目度): 2.0815739337757555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have shown remarkable success across scientific domains, yet their impact in chemistry remains limited due to the absence of diverse, large-scale, high-quality datasets that reflect the field's multifaceted nature. We present the ChemPile, an open dataset containing over 75 billion tokens of curated chemical data, specifically built for training and evaluating general-purpose models in the chemical sciences. The dataset mirrors the human learning journey through chemistry -- from educational foundations to specialized expertise -- spanning multiple modalities and content types including structured data in diverse chemical representations (SMILES, SELFIES, IUPAC names, InChI, molecular renderings), scientific and educational text, executable code, and chemical images. ChemPile integrates foundational knowledge (textbooks, lecture notes), specialized expertise (scientific articles and language-interfaced data), visual understanding (molecular structures, diagrams), and advanced reasoning (problem-solving traces and code) -- mirroring how human chemists develop expertise through diverse learning materials and experiences. Constructed through hundreds of hours of expert curation, the ChemPile captures both foundational concepts and domain-specific complexity. We provide standardized training, validation, and test splits, enabling robust benchmarking. ChemPile is openly released via HuggingFace with a consistent API, permissive license, and detailed documentation. We hope the ChemPile will serve as a catalyst for chemical AI, enabling the development of the next generation of chemical foundation models.
- Abstract(参考訳): 基礎モデルは、科学領域全体で顕著な成功を収めてきたが、その化学への影響は、多面体の性質を反映した多種多様な大規模で高品質なデータセットが存在しないために制限されている。
我々は、75億以上のキュレートされた化学データのトークンを含むオープンデータセットであるChemPileを紹介します。
このデータセットは、教育基盤から専門的な専門知識まで、化学の人間の学習過程を反映しており、様々な化学表現(SMILES、SELFIES、IUPAC名、InChI、分子レンダリング)、科学と教育のテキスト、実行可能なコード、化学画像など、複数のモダリティとコンテンツタイプにまたがっている。
ChemPileは基礎知識(教科書、講義ノート)、専門的専門知識(科学論文、言語インタフェースデータ)、視覚的理解(分子構造、図表)、先進的推論(プロブレム解決トレースとコード)を統合する。
何百時間もの専門的なキュレーションを通じて構築されたChemPileは、基本的な概念とドメイン固有の複雑さの両方をキャプチャする。
標準化されたトレーニング、検証、テストの分割を提供し、堅牢なベンチマークを可能にします。
ChemPileはHuggingFaceを通じて公開されており、一貫性のあるAPI、許容ライセンス、詳細なドキュメントがある。
ChemPileが化学AIの触媒として機能し、次世代の化学基礎モデルの開発を可能にすることを願っている。
関連論文リスト
- ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。