論文の概要: LeMat-Traj: A Scalable and Unified Dataset of Materials Trajectories for Atomistic Modeling
- arxiv url: http://arxiv.org/abs/2508.20875v1
- Date: Thu, 28 Aug 2025 15:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.470948
- Title: LeMat-Traj: A Scalable and Unified Dataset of Materials Trajectories for Atomistic Modeling
- Title(参考訳): LeMat-Traj:原子モデルのための材料軌道のスケーラブルで統一されたデータセット
- Authors: Ali Ramlaoui, Martin Siron, Inel Djafar, Joseph Musielewicz, Amandine Rossello, Victor Schmidt, Alexandre Duval,
- Abstract要約: 大規模リポジトリから集約された1億2000万以上の原子構成からなるキュレートデータセットであるLeMat-Trajを紹介した。
LeMat-Trajはデータ表現を標準化し、結果とフィルタを調和させ、広く使われているDFT機能にまたがる高品質な構成を実現する。
LeMaterial-Fetcherは、新しいデータソースを容易に組み込むために、コミュニティに再現可能なフレームワークを提供するために設計された、モジュラーでオープンソースのライブラリである。
- 参考スコア(独自算出の注目度): 34.31458248589154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of accurate machine learning interatomic potentials (MLIPs) is limited by the fragmented availability and inconsistent formatting of quantum mechanical trajectory datasets derived from Density Functional Theory (DFT). These datasets are expensive to generate yet difficult to combine due to variations in format, metadata, and accessibility. To address this, we introduce LeMat-Traj, a curated dataset comprising over 120 million atomic configurations aggregated from large-scale repositories, including the Materials Project, Alexandria, and OQMD. LeMat-Traj standardizes data representation, harmonizes results and filters for high-quality configurations across widely used DFT functionals (PBE, PBESol, SCAN, r2SCAN). It significantly lowers the barrier for training transferrable and accurate MLIPs. LeMat-Traj spans both relaxed low-energy states and high-energy, high-force structures, complementing molecular dynamics and active learning datasets. By fine-tuning models pre-trained on high-force data with LeMat-Traj, we achieve a significant reduction in force prediction errors on relaxation tasks. We also present LeMaterial-Fetcher, a modular and extensible open-source library developed for this work, designed to provide a reproducible framework for the community to easily incorporate new data sources and ensure the continued evolution of large-scale materials datasets. LeMat-Traj and LeMaterial-Fetcher are publicly available at https://huggingface.co/datasets/LeMaterial/LeMat-Traj and https://github.com/LeMaterial/lematerial-fetcher.
- Abstract(参考訳): 正確な機械学習原子間ポテンシャル(MLIP)の開発は、密度汎関数理論(DFT)から導かれる量子機械軌道データセットの断片的な可用性と一貫性のないフォーマッティングによって制限される。
これらのデータセットは、フォーマット、メタデータ、アクセシビリティのバリエーションのために、組み合わせるのが困難である。
これを解決するために、我々は、Material Project、Alexandria、OQMDを含む大規模リポジトリから集められた1億2000万以上の原子構成からなるキュレートデータセットであるLeMat-Trajを紹介した。
LeMat-Trajはデータ表現を標準化し、広く使われているDFT機能(PBE、PBESol、SCAN、r2SCAN)にまたがって結果とフィルタを調和させる。
これにより、トランスファー可能で正確なMLIPのトレーニング障壁が大幅に低下する。
LeMat-Trajは、緩和された低エネルギー状態と高エネルギー、高力構造の両方にまたがり、分子動力学とアクティブラーニングデータセットを補完する。
LeMat-Trajを用いた高力データに事前学習したモデルにより、緩和作業における力予測誤差を大幅に低減する。
我々はまた、この研究のために開発されたモジュラーで拡張可能なオープンソースライブラリであるLeMaterial-Fetcherを紹介し、新しいデータソースを容易に統合し、大規模資料データセットの継続的な進化を保証するために、コミュニティに再現可能なフレームワークを提供することを目的としている。
LeMat-TrajとLeMaterial-Fetcherはhttps://huggingface.co/datasets/LeMaterial/LeMat-Trajとhttps://github.com/LeMaterial/le Material-fetcherで公開されている。
関連論文リスト
- A Materials Map Integrating Experimental and Computational Data via Graph-Based Machine Learning for Enhanced Materials Discovery [5.06756291053173]
材料情報学(MI)は材料開発と発見を著しく加速すると予想されている。
MIで使用されるデータは、計算と実験の両方の研究から導かれる。
本研究では,材料特性と構造的特徴の関係を可視化する材料マップを構築するために得られたデータセットを用いた。
論文 参考訳(メタデータ) (2025-03-10T14:31:34Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - MatSciML: A Broad, Multi-Task Benchmark for Solid-State Materials
Modeling [7.142619575624596]
MatSci MLは機械学習(MatSci ML)法を用いたMATerials SCIenceをモデル化するためのベンチマークである。
MatSci MLは、モデルトレーニングと評価のための多様な材料システムとプロパティデータを提供する。
マルチデータセットの学習環境において、MatchSci MLは、研究者が複数のデータセットからの観測を組み合わせ、共通の特性を共同で予測することを可能にする。
論文 参考訳(メタデータ) (2023-09-12T03:08:37Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。