論文の概要: Learning the rules of peptide self-assembly through data mining with large language models
- arxiv url: http://arxiv.org/abs/2411.05421v1
- Date: Fri, 08 Nov 2024 09:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:13.493952
- Title: Learning the rules of peptide self-assembly through data mining with large language models
- Title(参考訳): 大規模言語モデルを用いたデータマイニングによるペプチド自己集合規則の学習
- Authors: Zhenze Yang, Sarah K. Yorke, Tuomas P. J. Knowles, Markus J. Buehler,
- Abstract要約: 我々は,人手による手作業処理と大規模言語モデルによる文献マイニングを組み合わせることで,ペプチド集合データベースをキュレートする。
ペプチド配列, 実験条件, およびそれに対応する自己集合相に関する情報を含む1000以上の実験データエントリを収集する。
MLモデルは訓練され評価され、ペプチド集合相分類において優れた精度(>80%)と効率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Peptides are ubiquitous and important biologically derived molecules, that have been found to self-assemble to form a wide array of structures. Extensive research has explored the impacts of both internal chemical composition and external environmental stimuli on the self-assembly behaviour of these systems. However, there is yet to be a systematic study that gathers this rich literature data and collectively examines these experimental factors to provide a global picture of the fundamental rules that govern protein self-assembly behavior. In this work, we curate a peptide assembly database through a combination of manual processing by human experts and literature mining facilitated by a large language model. As a result, we collect more than 1,000 experimental data entries with information about peptide sequence, experimental conditions and corresponding self-assembly phases. Utilizing the collected data, ML models are trained and evaluated, demonstrating excellent accuracy (>80\%) and efficiency in peptide assembly phase classification. Moreover, we fine-tune our GPT model for peptide literature mining with the developed dataset, which exhibits markedly superior performance in extracting information from academic publications relative to the pre-trained model. We find that this workflow can substantially improve efficiency when exploring potential self-assembling peptide candidates, through guiding experimental work, while also deepening our understanding of the mechanisms governing peptide self-assembly. In doing so, novel structures can be accessed for a range of applications including sensing, catalysis and biomaterials.
- Abstract(参考訳): ペプチドはユビキタスで生物学的に誘導される重要な分子であり、様々な構造を形成するために自己集合が発見されている。
広範囲にわたる研究は、内部化学組成と外部環境刺激の両方がこれらのシステムの自己組織化挙動に与える影響を調査してきた。
しかし、この豊富な文献データを収集し、これらの実験的要因を総合的に調べて、タンパク質の自己組織化行動を管理する基本的なルールの全体像を提供する体系的な研究はまだない。
本研究では,人手による手作業処理と大規模言語モデルによる文献マイニングを組み合わせることで,ペプチド集合データベースをキュレートする。
その結果,1000以上の実験データからペプチド配列,実験条件,およびそれに対応する自己組織化相に関する情報を収集した。
収集したデータを用いて、MLモデルを訓練し、評価し、ペプチド集合相分類において優れた精度(>80\%)と効率を示す。
さらに,本研究で開発したペプチド文献マイニング用GPTモデルを,事前学習した論文から情報を抽出する際の優れた性能を示すデータセットを用いて微調整した。
このワークフローは、ペプチドの自己集合を制御しているメカニズムの理解を深めつつ、実験的研究を導くことによって、潜在的自己集合ペプチド候補を探索する際の効率を大幅に向上させることができる。
これにより、センシング、触媒、生体材料など、様々な用途に新しい構造が利用できる。
関連論文リスト
- BioBERT-based Deep Learning and Merged ChemProt-DrugProt for Enhanced Biomedical Relation Extraction [2.524192238862961]
我々のアプローチは、新しいマージ戦略を用いて、ChemProtとD薬局のデータセットを統合する。
本研究は, バイオメディカル研究と臨床実習における自動情報抽出の可能性を強調した。
論文 参考訳(メタデータ) (2024-05-28T21:34:01Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - Exploring the Effectiveness of Instruction Tuning in Biomedical Language
Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。
約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-12-31T20:02:10Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。