論文の概要: A million-scale dataset and generalizable foundation model for nanomaterial-protein interactions
- arxiv url: http://arxiv.org/abs/2507.14245v1
- Date: Fri, 18 Jul 2025 00:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.799493
- Title: A million-scale dataset and generalizable foundation model for nanomaterial-protein interactions
- Title(参考訳): ナノマテリアル-タンパク質相互作用のための百万スケールデータセットと一般化可能な基礎モデル
- Authors: Hengjie Yu, Kenneth A. Dawson, Haiyun Yang, Shuya Liu, Yan Yan, Yaochu Jin,
- Abstract要約: 現在までに最大のナノマテリアル-タンパク質相互作用データセットであるNanoPro-3Mを提案する。
ナノマテリアル-タンパク質親和性を予測する基礎モデルであるNanoProFormerを,マルチモーダル表現学習により提案する。
- 参考スコア(独自算出の注目度): 22.339823160991934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlocking the potential of nanomaterials in medicine and environmental science hinges on understanding their interactions with proteins, a complex decision space where AI is poised to make a transformative impact. However, progress has been hindered by limited datasets and the restricted generalizability of existing models. Here, we propose NanoPro-3M, the largest nanomaterial-protein interaction dataset to date, comprising over 3.2 million samples and 37,000 unique proteins. Leveraging this, we present NanoProFormer, a foundational model that predicts nanomaterial-protein affinities through multimodal representation learning, demonstrating strong generalization, handling missing features, and unseen nanomaterials or proteins. We show that multimodal modeling significantly outperforms single-modality approaches and identifies key determinants of corona formation. Furthermore, we demonstrate its applicability to a range of downstream tasks through zero-shot inference and fine-tuning. Together, this work establishes a solid foundation for high-performance and generalized prediction of nanomaterial-protein interaction endpoints, reducing experimental reliance and accelerating various in vitro applications.
- Abstract(参考訳): 医学や環境科学におけるナノマテリアルのポテンシャルを解き放つことは、タンパク質との相互作用を理解することに集中している。
しかし、進歩は限られたデータセットと既存のモデルの限定的な一般化によって妨げられている。
本稿では,これまでで最大のナノマテリアル-タンパク質相互作用データセットであるNanoPro-3Mを提案する。
これを応用して,ナノマテリアル-タンパク質親和性を予測する基礎モデルであるNanoProFormerを提案する。
マルチモーダル・モデリングは単一モダリティ・アプローチを著しく上回り,コロナ生成の重要な要因を同定する。
さらに、ゼロショット推論と微調整により、下流タスクに適用可能であることを示す。
この研究は、ナノマテリアル-タンパク質相互作用終端の高性能で一般化された予測の基礎を確立し、実験的な依存を減らし、様々なin vitro応用を加速させる。
関連論文リスト
- MOFSimBench: Evaluating Universal Machine Learning Interatomic Potentials In Metal--Organic Framework Molecular Modeling [0.19506923346234722]
UMLIP(Universal Machine Learning Interatomic potentials)は、原子論シミュレーションを加速するための強力なツールとして登場した。
ナノポーラス材料の主要材料モデリングタスクにおけるuMLIPの評価ベンチマークであるMOFSimBenchを紹介する。
トップパフォーマンスのuMLIPは、古典的な力場や、あらゆるタスクにわたって微調整された機械学習能力より一貫して優れています。
論文 参考訳(メタデータ) (2025-07-16T00:00:55Z) - NbBench: Benchmarking Language Models for Comprehensive Nanobody Tasks [6.485214172837228]
我々は,ナノボディ表現学習のための最初の総合ベンチマークスイートであるNbBenchを紹介する。
NbBenchは構造アノテーション、バインディング予測、開発可能性評価を含む。
解析の結果,抗体言語モデルでは抗原関連タスクが優れており,熱安定性や親和性などの回帰タスクのパフォーマンスは依然として困難であることが判明した。
論文 参考訳(メタデータ) (2025-05-04T08:18:10Z) - An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。
鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
また、多鎖タンパク質の折りたたみおよび逆折りのタスクも行う。
論文 参考訳(メタデータ) (2025-04-17T16:37:41Z) - UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion [61.690978792873196]
既存のアプローチは自己回帰シーケンスモデルか拡散モデルのいずれかに依存している。
自己回帰的次トーケン予測と条件拡散モデルを組み合わせた統合フレームワークUniGenXを提案する。
材料および小分子生成タスクにおけるUniGenXの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。
本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文 参考訳(メタデータ) (2024-09-10T06:52:33Z) - Unveiling the Potential of AI for Nanomaterial Morphology Prediction [0.0]
本研究は、データ可用性制約におけるナノ粒子の形態を予測するAIの可能性について検討する。
我々はまず,類似研究の2倍の大きさのマルチモーダルデータセットを作成した。
論文 参考訳(メタデータ) (2024-05-31T19:16:07Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Functional Nanomaterials Design in the Workflow of Building
Machine-Learning Models [0.0]
機械学習(ML)技術は、化学と材料科学の多くの研究分野に革命をもたらした。
MLは、分子/物質の組み合わせに関するより包括的な洞察を提供する。
ナノマテリアル発見の進歩の鍵は、入力指紋と出力値を定量的にリンクする方法である。
論文 参考訳(メタデータ) (2021-08-16T05:51:03Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。