論文の概要: Omics-scale polymer computational database transferable to real-world artificial intelligence applications
- arxiv url: http://arxiv.org/abs/2511.11626v1
- Date: Fri, 07 Nov 2025 09:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.314311
- Title: Omics-scale polymer computational database transferable to real-world artificial intelligence applications
- Title(参考訳): 現実の人工知能アプリケーションに転送可能なOmicsスケールポリマー計算データベース
- Authors: Ryo Yoshida, Yoshihiro Hayashi, Hidemine Furuya, Ryohei Hosoya, Kazuyoshi Kaneko, Hiroki Sugisawa, Yu Kaneko, Aiko Takahashi, Yoh Noguchi, Shun Nanjo, Keiko Shinoda, Tomu Hamakawa, Mitsuru Ohno, Takuya Kitamura, Misaki Yonekawa, Stephen Wu, Masato Ohnishi, Chang Liu, Teruki Tsurimoto, Arifin, Araki Wakiuchi, Kohei Noda, Junko Morikawa, Teruaki Hayakawa, Junichiro Shiomi, Masanobu Naito, Kazuya Shiratori, Tomoki Nagai, Norio Tomotsu, Hiroto Inoue, Ryuichi Sakashita, Masashi Ishii, Isao Kuwajima, Kenji Furuichi, Norihiko Hiroi, Yuki Takemoto, Takahiro Ohkuma, Keita Yamamoto, Naoya Kowatari, Masato Suzuki, Naoya Matsumoto, Seiryu Umetani, Hisaki Ikebata, Yasuyuki Shudo, Mayu Nagao, Shinya Kamada, Kazunori Kamio, Taichi Shomura, Kensaku Nakamura, Yudai Iwamizu, Atsutoshi Abe, Koki Yoshitomi, Yuki Horie, Katsuhiko Koike, Koichi Iwakabe, Shinya Gima, Kota Usui, Gikyo Usuki, Takuro Tsutsumi, Keitaro Matsuoka, Kazuki Sada, Masahiro Kitabata, Takuma Kikutsuji, Akitaka Kamauchi, Yusuke Iijima, Tsubasa Suzuki, Takenori Goda, Yuki Takabayashi, Kazuko Imai, Yuji Mochizuki, Hideo Doi, Koji Okuwaki, Hiroya Nitta, Taku Ozawa, Hitoshi Kamijima, Toshiaki Shintani, Takuma Mitamura, Massimiliano Zamengo, Yuitsu Sugami, Seiji Akiyama, Yoshinari Murakami, Atsushi Betto, Naoya Matsuo, Satoru Kagao, Tetsuya Kobayashi, Norie Matsubara, Shosei Kubo, Yuki Ishiyama, Yuri Ichioka, Mamoru Usami, Satoru Yoshizaki, Seigo Mizutani, Yosuke Hanawa, Shogo Kunieda, Mitsuru Yambe, Takeru Nakamura, Hiromori Murashima, Kenji Takahashi, Naoki Wada, Masahiro Kawano, Yosuke Harada, Takehiro Fujita, Erina Fujita, Ryoji Himeno, Hiori Kino, Kenji Fukumizu,
- Abstract要約: PolyOmicsは、完全に自動化された分子動力学シミュレーションパイプラインによって生成されるオミクススケールの計算データベースである。
PolyOmicsで事前訓練された機械学習モデルは、広範囲の現実世界の下流タスクに対して効率的に微調整することができる。
- 参考スコア(独自算出の注目度): 8.718893022299653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing large-scale foundational datasets is a critical milestone in advancing artificial intelligence (AI)-driven scientific innovation. However, unlike AI-mature fields such as natural language processing, materials science, particularly polymer research, has significantly lagged in developing extensive open datasets. This lag is primarily due to the high costs of polymer synthesis and property measurements, along with the vastness and complexity of the chemical space. This study presents PolyOmics, an omics-scale computational database generated through fully automated molecular dynamics simulation pipelines that provide diverse physical properties for over $10^5$ polymeric materials. The PolyOmics database is collaboratively developed by approximately 260 researchers from 48 institutions to bridge the gap between academia and industry. Machine learning models pretrained on PolyOmics can be efficiently fine-tuned for a wide range of real-world downstream tasks, even when only limited experimental data are available. Notably, the generalisation capability of these simulation-to-real transfer models improve significantly as the size of the PolyOmics database increases, exhibiting power-law scaling. The emergence of scaling laws supports the "more is better" principle, highlighting the significance of ultralarge-scale computational materials data for improving real-world prediction performance. This unprecedented omics-scale database reveals vast unexplored regions of polymer materials, providing a foundation for AI-driven polymer science.
- Abstract(参考訳): 大規模な基盤データセットの開発は、人工知能(AI)による科学革新の進展における重要なマイルストーンである。
しかし、自然言語処理のようなAI成熟分野とは異なり、材料科学、特に高分子研究は、広範なオープンデータセットの開発において著しく遅れを取っている。
このラグは主に、化学空間の広さと複雑さとともに、高分子合成と特性測定のコストが高いためである。
本研究は,全自動分子動力学シミュレーションパイプラインを用いて生成したオミクススケールの計算データベースであるPolyOmicsについて述べる。
PolyOmicsデータベースは、48の機関から約260人の研究者が共同で開発し、学術と産業のギャップを埋めようとしている。
PolyOmicsで事前訓練された機械学習モデルは、限られた実験データしか利用できない場合でも、広範囲の現実世界の下流タスクに対して効率的に微調整することができる。
特に、これらのシミュレーション・トゥ・リアル転送モデルの一般化能力は、PolyOmicsデータベースのサイズが大きくなるにつれて大幅に向上し、パワー・ロー・スケーリングが現れる。
スケーリング法則の出現は「より良い」原理を支持し、現実世界の予測性能を改善するための超大規模計算材料データの重要性を強調している。
この前例のないオミクススケールのデータベースは、未発見のポリマーの広大な領域を明らかにし、AI駆動のポリマー科学の基礎となる。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Multimodal machine learning with large language embedding model for polymer property prediction [2.525624865489335]
本稿では,高分子特性予測タスクに対して,単純で効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
PolyLLMemは、Llama 3によって生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合する。
その性能は、グラフベースのモデルやトランスフォーマーベースのモデルと同等であり、場合によってはそれ以上である。
論文 参考訳(メタデータ) (2025-03-29T03:48:11Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - Transferring a molecular foundation model for polymer property
predictions [3.067983186439152]
トランスモデルの自己教師付き事前トレーニングには、大規模なデータセットが必要である。
本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 強化ポリマーデータセットでトレーニングしたトランスフォーマーと同等の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T19:55:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - TransPolymer: a Transformer-based language model for polymer property
predictions [9.04563945965023]
TransPolymerは、トランスフォーマーをベースとした、高分子特性予測のための言語モデルである。
ケミカル・アウェアネスを用いたポリマー・トークンーザは, ポリマー配列からの学習表現を可能にする。
論文 参考訳(メタデータ) (2022-09-03T01:29:59Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Polymer Informatics: Current Status and Critical Next Steps [1.3238373064156097]
サロゲートモデルは、インスタントプロパティ予測のために利用可能なポリマーデータに基づいて訓練される。
データ駆動型戦略は, 高分子の化学的, 物理的多様性から生じる特異な課題に, 小規模かつ大規模に対処するものである。
アプリケーションターゲットを満たす高度なAIアルゴリズムを用いて, 高分子レコメンデーションを行う逆問題の解法について検討している。
論文 参考訳(メタデータ) (2020-11-01T14:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。